LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。
LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。
本研究系统考察了大语言模型中可学习缩放向量的作用。尽管其参数占比极小,但移除后会显著损害模型预训练效果。研究表明,在Pre-Norm架构中,其主要作用并非增强模型表达能力,而是通过自放大的预处理效应优化后续的线性映射。此外,权重衰减对Input-Norm层有益,但对Output-Norm层有害。基于这些发现,文章提出了三种轻量化改进:分支特异性异构性、线性映射周围的改进放置以及幅度-方向重参数化,并将其整合为一个统一的策略。实验验证表明,该策略在以可忽略不计的额外参数和计算开销下,能一致实现更低的最终损失和更优的缩放行为。
2026年第一季度全球DRAM收入达970亿美元,环比激增80%,同比增长260%。三星以38%的市占领先,SK海力士和美光分别为29%和22%。增长动力主要来自AI数据中心对LPDDR5X和HBM内存的强劲需求。预计第二季度DRAM均价将环比上涨50%,全年市场规模有望实现三倍增长。
RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。
该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据,使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的,对残差网络、Transformer及各类循环架构(RNN、LSTM、SSM)等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括:泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程,以及具有闭式解O(N)的影响函数。
AI智能体需与用户对齐,提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式,在14个公共领域自传体语料库上显著提升代表准确性,上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大,但对需要回忆的问题可能干扰。代表准确性区别于回忆能力,使AI对齐可测试。
RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时,评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者,其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局,并结合交替式GRPO方案,利用阶段性偏好奖励训练逐点评分评估器。实验表明,该框架在奖励建模准确性上具备竞争力,并能为下游策略后训练带来一致收益。
针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。
Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。
OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试,旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式:从异构资产构建求解模型(Build)、根据需求修改现有模型(Revise)、以及基于工作区证据回答关于方案的问题(Explain)。它通过结合持久化工作区和面向生命周期的任务,评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。
微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。
由伯克利和斯坦福研究人员创立的初创公司 Human Archive,正在印度支付零工工人工资,让他们佩戴装有摄像头的帽子和传感器设备,以收集 AI 和机器人实验室竞相获取的现实世界物理训练数据。
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)文章的核心论点是 Google 凭借其分发优势,在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户,这主要归功于向 Android 用户进行的默认应用替换,以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模,Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础,通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片,使其在推理和训练上更独立,并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束,但 Google 的开局位置非常出色。
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。
用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。
有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。
百度智能云发布具身智能Ego-Centric采集解决方案,以轻量化数采套件(120FPS、150°视场、毫米级定位、毫秒级同步)实现低门槛第一视角数据采集;首创无本体设计,通过RGB视频到三维手部姿态估计与动作重定向,达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台,覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业,并支持北京、上海、浙江、四川等国家创新中心。
提出Adversarial Flow Distillation(AFD)框架,用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出,训练Bradley-Terry判别器以估计干净样本上的师生差异,并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新,无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明,AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量,同时保持整体效果,为蒸馏专有或异构视频生成器提供了实用路径。
小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。
当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。
针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。
SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。
QAM将离线策略强化学习转化为无记忆随机最优控制问题,但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度,优化信任区域参数λ,并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上,TRQAM在离线RL和离线到在线RL中均超越先前方法,离线RL成功率达68%,超过最强基线(46%)。
MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。
本文提出了TSCOMP,首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估,分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库,支持自动化的组件选择,能够实现零样本模型构建。实验表明,基于该语料库的方法始终优于当前最优方法。
在线策略蒸馏(OPD)利用教师模型的token级监督,对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出,原始的KL分歧是一个粗糙指标,它混合了“可学习分歧”和“不相容分歧”。为此,研究提出了“Token可教学性”概念来衡量信号的实际可学习性,并据此设计了轻量级的TA-OPD方法,仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中,TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法,将选择性蒸馏重新定义为筛选可学习的教师信号。
本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。
GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法,用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征,避免了成对比较或聚类,且具有训练无关性,适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效,为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。
SAERL是一个面向大语言模型强化学习的数据工程框架,利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性,并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明,在通义千问(Qwen2.5-Math-1.5B)上,SAERL相比标准GRPO平均准确率提升3.00%,并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益,且SAE能跨模型系列和规模有效迁移,证明了模型内部信号作为后训练数据工程信号源的实用价值。
研究发现在On-policy蒸馏中存在“离策略教师衰减”问题:当学生模型的早期轨迹作为上下文时,教师模型为后续token产生修正分数的能力会衰减。为此,本文提出早期停止生成策略,将生成的rollout限制在前几个响应token上。实验表明,该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能,并展现出更高的GPU效率和训练稳定性,尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应,这解释了其有效性的机制。
根据报道,挪威采购了2拍字节(PB)的华为闪存存储设备。这批高性能存储设备将被用于支持大型语言模型(LLM)的训练工作。此举反映了AI模型开发对大规模、高吞吐量存储解决方案的持续需求。
推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。
本教程展示如何使用 NVIDIA FLARE 框架构建一个联邦学习实验,以比较 FedAvg 和 FedProx 两种算法。实验在非独立同分布(non-IID)的 CIFAR-10 数据集上进行,通过狄利克雷分布划分客户端数据,以模拟现实联邦场景中的标签不平衡问题。内容涵盖如何利用 NVFlare Job API 来定义和启动联邦学习任务。