针对目标环境分布偏移下的域泛化问题,在反因果设定中(结果变量导致观测协变量),环境扰动不影响结果变量,因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签,从而能利用多环境中的无标签数据。提出两种方法,分别惩罚模型在环境间协变量均值和协方差的变化,并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。
针对目标环境分布偏移下的域泛化问题,在反因果设定中(结果变量导致观测协变量),环境扰动不影响结果变量,因此可通过正则化模型对这些扰动的敏感性来提升鲁棒性。估计扰动方向无需标签,从而能利用多环境中的无标签数据。提出两种方法,分别惩罚模型在环境间协变量均值和协方差的变化,并证明其在特定环境类下具有最坏情况最优性。在受控物理系统和生理信号数据集上验证了方法的有效性。
研究人员提出使用强化学习训练扩散语言模型(dLLM)的采样策略。该方法将掩码扩散采样形式化为马尔可夫决策过程,以 dLLM 为环境,采用单层 Transformer 策略网络将 token 置信度映射为去掩码决策。实验表明,在半自回归(块)生成中,该策略匹配了最先进的启发式方法,在全扩散设置中则超越后者。
Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
研究发现,训练单个Transformer层即可恢复甚至超越全参数强化学习(RL)后训练带来的收益。研究引入“层贡献度”量化指标,在Qwen3和Qwen2.5两个模型家族的七个模型上,使用GRPO、GiGPO、Dr. GRPO三种RL算法,覆盖数学推理、代码生成和智能体决策任务,发现RL收益高度集中于少数Transformer层,且高贡献层集中在堆栈中间,两端层贡献显著较小。
大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。
MemoryLLM将Transformer中的前馈模块(FFN)与自注意力解耦,使其作为无上下文的token级神经检索记忆运行。训练时FFN与自注意力隔离,直接使用token嵌入,从而可预计算为token级查找(ToL),实现VRAM与存储间的按需传输,提升推理效率。此外还提出了介于传统Transformer与MemoryLLM之间的Flex-MemoryLLM架构,以弥补因使用无上下文token嵌入训练FFN导致的性能差距。
VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。
Transformer使用同一前向计算流同时预测下一个token和存储用于未来预测的状态。为解耦这两个角色,作者提出状态预测分离假说,并设计了一种采用双计算流的Transformer变体。不同规模下的预训练实验表明,该方法在数据和计算效率上持续优于标准Transformer,验证损失更低,下游任务平均性能提升2-3个百分点。进一步的实证分析排除了潜在混淆因素,揭示了新设计在梯度上的根本差异。
CausalMix将大语言模型训练中的数据混合优化重构为因果推断问题,将数据池统计特征作为协变量、领域混合作为处理变量,在512次Qwen2.5-0.5B运行上拟合因果模型估计条件平均处理效应(CATE),外推出800K数据池的最优混合比例并用于训练7B模型。该框架还能泛化至Qwen3-4B-Base的长链式推理数据。通过因果建模隔离混杂偏差,CausalMix动态推断状态依赖的最优数据混合,在多个下游任务上优于RegMix等基线,并借助CATE解释器提供可视化分析。
DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标,动态生成代码探索数据集,且每个发现必须通过统计检验。框架引入二阶元反思机制,周期性分析自身已有发现,识别结构模式、混淆和认知空白,主动将假设探索重定向到未知区域。结合工具使用,可处理多模态来源(如图像)的信息。在 iNatDisco 生态基准上,DiscoPER 恢复 8/9 已知模式,假设支持率 72.7%,优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。
ABot-M0.5 是一种面向机器人移动操作的新型 World Action Model(WAM)。它从三个层面解决现有 WAM 的对齐问题:时间粒度对齐通过引入中间潜在动作捕捉局部视觉状态转换,作为视频潜在与具身控制之间的桥接;动作空间对齐采用双级 Mixture-of-Transformers 架构,解耦模态表示与异构动作子空间(如底座移动与机械臂操作);推理条件对齐提出 dream-forcing 训练策略,在模型预测视频上逐步训练逆动力学,提升自回归推理时的对齐与鲁棒性。在移动与精细操作基准上,ABot-M0.5 在长程任务成功率与细粒度控制精度上均达到当前最优。
TRIAGE 提出角色类型化信用分配框架,替代标准 GRPO 的均匀优势信号。结构化判断器将每个智能体片段分类为决定性进展、有用探索、无进展基础设施或回归,并映射为固定角色条件规则下的过程奖励,修正纯结果信用对失败轨迹中有用探索的惩罚和对成功轨迹中冗余/倒退动作的强化。在 ALFWorld、Search-QA 和 WebShop 上,TRIAGE 提升成功率,优于标量判断器过程奖励和结果监督共享主干价值基线。消融实验表明收益来自角色类型化,成功轨迹内的回归检测是主要贡献,探索信用提供二次增益;在完整轨迹上,TRIAGE 分别减少 10.4% 和 14.8% 的环境交互轮数。
OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。
Goku是一个包含200万高质量视频编辑对的百万级数据集,首次将基于指令的视频编辑从单一外观扩展至多任务和结构操控(如主体运动控制)。研究者设计了分解式数据合成流水线与渐进式过滤系统以解决复杂编辑的数据合成难题。基于该数据集训练的Goku-Edit模型采用MLLM作为文本编码器,并采用解耦双分支架构:专用掩码分支处理结构控制,主分支负责外观渲染。配套基准Goku-Bench包含1000个人工验证测试用例和7项新增编辑指标,Goku-Edit的指令遵循能力较其他开源模型提升高达+8%。
大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。
异步流水线并行消除同步气泡,但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟,但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设,发现AdamW在一步延迟下退化,而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明,所提策略可缩小异步与同步训练的性能差距,展示大规模异步流水线并行的实用潜力。
BeyondArena是首个统一的表格数据整体基准,支持IID、时序、分组等任务,覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架,在11个模型与142个数据集上的评测显示:现有表格基础模型在中小规模IID数据上表现优秀,但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。
生成分子设计受限于药物性质代理基准和制药数据集预训练,难以迁移到结构不同的领域。为此提出纳米科技分子优化(NMO)基准测试,以量子模拟替代代理oracle,引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观,先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差,在物理性质上超越现有SOTA,并揭示未知结构基元。
Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。
GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。
GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。
大语言模型在表格任务中仍会出现数据引用错误(DRE),即错误引用或遗漏表格数值。研究首次系统评估了不同模型(1.7B至20B参数)的DRE发生率,发现所有测试模型均存在该问题。将数据引用作为critic进行过滤和拒绝采样后,答案准确率提升最高达12.0%。团队训练了一个轻量级4B参数critic模型,在分布内和分布外DRE检测上取得平均F1分数78.2%,并能有效辅助更大模型进行推理。
AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。
DiScoFormer(Density and Score Transformer)是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制,在单次前向传播中输出密度和分数,并通过一致性损失实现分布外自适应。在100维空间中,DiScoFormer比最优调参的核密度估计(KDE)降低分数误差约6.5倍、密度误差超过37倍,且随样本量增加持续提升,而KDE内存耗尽。模型基于高斯混合模型训练,可泛化至非高斯分布(如Laplace、Student-t)及未见过的多模态混合。
GPT-4 等闭源大语言模型性能优异,但因其作为黑盒教师无法提供内部状态,限制了知识蒸馏的效果。Proxy-KD 方法引入一个代理模型,实现从黑盒 LLM 到小模型的高效知识迁移。实验结果显示,Proxy-KD 不仅提升了黑盒教师蒸馏的性能,还超越了传统白盒蒸馏技术。
剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。
针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足,本文提出SciIR框架,基于皮尔斯符号学三元组,涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集,含超8万高质量科学图像-文本对,来自前沿论文,并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足;在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。
本文提出策略多样性(approach-level diversity),即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架,发现现有表面多样性指标无法可靠反映策略多样性,且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果,但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。
大语言模型后训练中常用强化学习提升特定能力,但多能力整合困难。现有Off-Policy Finetune和Mix-RL等方法效率低或性能下降。MOPD提出新范式:先对每个领域进行专用RL训练获得领域教师,再在学生模型自身rollout上蒸馏这些教师,消除暴露偏差并提供密集优化信号。在Qwen3-30B-A3B上,MOPD优于Mix-RL、Cascade RL、Off-Policy Finetune和Param-Merge基线,几乎继承每位教师全部能力。MOPD支持领域教师并行独立开发,去除跨领域耦合,已部署于工业级模型MiMo-V2-Flash的后训练。
MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。
在线策略蒸馏(OPD)通过密集的token级信号监督学生采样轨迹,实现能力迁移,但引入特权信息会引发“特权幻觉”——学生将信息不对称差距误认为可迁移的能力差距。该问题因token级监督的非均匀性而加剧,仅有少量token携带关键能力信号。DOPD提出优势感知的双蒸馏范式,根据优势差距和相对概率动态在特权教师与特权学生策略之间路由token级监督,缓解特权幻觉。在LLM和VLM上的实验表明,DOPD优于标准OPD及其他方法。
RAHA(Rank-Aware Hyperbolic Alignment)提出将多模态表示提升到双曲空间,通过非对称目标优化蒸馏对,强制在共享低秩范围内进行测地线对齐,同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题,在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。