研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。
研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。
针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题,本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态,而是关注每层子网络引入的增量变化(即输出差值)。这种增量表示结构更多样,能生成对比度更高的注意力分布,从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明,该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升,并可通过标准微调应用于预训练模型。
研究发现大语言模型在工具使用上存在系统性“知行差距”——模型认知判断需要工具与实际调用工具的行为存在显著不匹配。基于模型自适应定义评估显示,算术与事实问答场景下不匹配率分别达26.5%-54.0%和30.8%-41.8%。通过对模型内部表征的探测分析发现,不匹配主要发生在从认知判断到动作执行的转换环节,而非认知判断本身。这表明提升工具使用可靠性需同步优化认知识别和行动执行两个层面。
本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。
本文提出了Pinductor,一种利用大语言模型作为先验知识,从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型,再通过基于信念的似然分数进行迭代优化。实验表明,尽管使用的信息更少,Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法,并显著超越传统基线。研究还发现,其性能随LLM能力增强而提升,并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。
当前多模态大语言模型的文档问答评估仅核对答案,忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案,却引用了错误的文段,在法律等高风险领域构成重大风险。为此,研究团队推出了CiteVQA基准测试,要求模型为每个答案提供元素级的边界框引用,并对两者进行联合评估。该基准包含711份PDF文档、1897个问题,其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题,最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。
本研究揭示On-policy蒸馏(OPD)的高效性源于其“预见性”,即在训练早期建立朝向最终模型的稳定更新路径。预见性体现在两个层面:在模块分配上,OPD能识别边际效益低的模块,集中资源于关键推理部分;在更新方向上,其主导子空间提前对齐最终更新,表现出低秩集中性。基于此,提出了EffOPD,一种无需额外模块的即插即用加速方法,通过自适应选择外推步长和沿当前方向移动,实现平均3倍训练加速且性能相当。这为OPD效率提供了参数动态视角,也为大语言模型后训练设计提供了实用思路。
研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。
研究发现,现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题,可能夸大模型性能。为此,我们通过视觉探测清洗九个基准,构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型,提出了三阶段后训练方案OmniBoost:混合双模态监督微调、混合模态RLVR训练,以及在自蒸馏数据上的微调。实验表明,平衡的双模态微调提升有限,RLVR首次带来广泛改进,而自蒸馏则重塑了模型的基准表现。最终,该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展,且小模型可通过分阶段后训练与自蒸馏监督显著提升。
CurveBench是一个视觉层次拓扑推理基准,包含756张互不相交的Jordan曲线图像,涵盖五种配置。每张图像标注了编码区域包含关系的根树,任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单,但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%,在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调,其在简易集上的准确率从2.8%提升至33.3%,超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明,精确的拓扑感知视觉推理问题尚未解决。
针对严重退化下文本图像超分辨率任务中全局先验不可靠与笔画边界模糊的挑战,本文提出PRISM框架。它通过流匹配先验校正模块,将退化嵌入映射至面向复原的先验空间,提供更准确的全局文本引导;同时利用结构引导的不确定性感知残差编码器,预测结构残差以选择性融合可靠的局部边界线索。该设计在单步扩散过程中同步实现了全局先验校正与局部结构细化。在合成与真实场景基准测试中,PRISM取得了最先进的性能,并保持毫秒级推理速度。相关代码与数据集已开源。
针对多模态大模型在360度全景图像空间理解上的不足,研究提出PanoWorld模型。现有方法通常将全景图分解为透视图,忽略了其连续的球面几何结构。为此,本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据,并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上,PanoWorld显著超越了现有开源与专有基线。结果表明,稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。
工业LLM代理系统常将规划与执行分离,但LLM规划器易产生结构无效或过长的流程,导致脆弱失败和额外成本。SPIN是一种规划封装器,结合验证有向无环图(DAG)规划和基于前缀的执行控制。它通过验证与修复提示强制执行严格的DAG契约,在下游执行前生成可执行计划,并增量评估DAG前缀以在满足查询时提前停止。在AssetOpsBench的261个场景中,SPIN将执行任务数从1061降至623,任务完成率从0.638提升至0.706,每次运行的工具调用数从11.81减少至6.82。在MCP Bench上,该封装器同样提升了GPT OSS1和Llama 4 Maverick在规划、落地和依赖关系方面的评分。
本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学,从根本上解决了谱干扰问题,实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂,我们推导了原则性的算子级分解,构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量,并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率,同时增强了对物理不变量的保真度。代码已开源。
本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调,以灌输严谨的证明搜索与自我检查行为;随后通过两阶段强化学习流程扩展这些能力,最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01,在仅使用约34万条短轨迹微调和200步强化学习后,能稳定处理超过10万token的长轨迹难题,并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现,同时展现出向数学物理之外科学领域的强推理泛化能力。
针对LLM智能体长期记忆系统中检索机制固定不变的问题,研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置(如评分函数、融合策略)构建为结构化行动空间,由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行:诊断模块分析失败日志、定位根因并提出配置调整,再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明,EvolveMem在LoCoMo和MemBench基准上显著优于基线,进化后的配置能跨基准正向迁移,表明系统捕捉到了通用的检索原则。代码已开源。
针对角色扮演代理长期一致性记忆的需求,本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法,避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案,支持概念、行为和状态三种搜索类型,并采用高效同步机制更新答案以供未来复用。相比基线方法,该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中,其性能显著优于现有记忆基线。
GridProbe提出一种无需训练的后验探测推理范式,以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上,通过轻量级行列表探测,利用冻结视觉语言模型在答案空间中评估证据,并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算,实现测试时计算量自适应调整。实验表明,在Video-MME-v2基准上,计算量降低3.36倍,平均准确率损失控制在1.6个百分点内;在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合,无需重新训练即可提升性能。
本研究针对策略蒸馏中监督信号的有效性不明确问题,引入一种免训练诊断框架,以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度,并开发可扩展的定向展开算法高效估算梯度,进而计算梯度对齐分数,量化特定蒸馏配置接近理想信号的程度。研究发现,蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性;在正确展开时,学生模型已表现良好,教师信号往往变得嘈杂。此外,最优蒸馏上下文共同取决于学生模型的能力和目标任务,不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。
研究团队发布了PlantMarkerBench,这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种,包含5,550个标注了证据有效性、类型和支持强度的句子实例,并定义了两项评估任务。测试显示,前沿模型在处理直接表达证据时表现尚可,但在功能、间接和弱支持证据上性能显著下降,且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。
本研究探讨在大型语言模型(LLM)代理循环中词法检索器的有效性,引入Pi-Serini搜索代理,配备检索、浏览和阅读工具。通过将优化配置的BM25与前沿LLMs(如gpt-5.5)配对,在BrowseComp-Plus数据集上的实验显示,该方法支持深度研究,实现83.1%答案准确率和94.7%表面证据召回率,优于使用密集检索器的搜索代理。消融实验表明,BM25调优比默认设置提升答案准确率18.0%和表面证据召回率11.1%,增加检索深度比浅层检索进一步提升表面证据召回率25.3%。源代码已公开。
DeepRefine 是一种基于大语言模型的通用推理模型,旨在通过与知识库进行多轮交互,精炼其中存在的缺陷(如证据缺失、断言置信度低或指代模糊等问题),从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷,并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略,研究引入了“超越草案增益”奖励,并采用强化学习进行端到端训练。大量实验表明,该方法能在多个强基线模型上带来一致的下游性能提升。
针对传统残差流引导在多轮对话中因KV缓存污染导致连贯性下降的问题,本研究提出门控裁剪注意力差值引导(GCAD)方法。该方法从系统提示对自注意力的贡献中提取引导信号,并通过令牌级门控机制施加干预,从而避免累积性污染。在角色引导实验中,GCAD在保持特质控制的同时,显著提升了长程对话的连贯性。在多轮基准测试中,它将平均连贯性漂移从-18.6改善至-1.9,并将第10轮的特质表达率从78.0%提升至93.1%。结果表明,沿模型已有的提示介导路径进行干预,能使激活引导更为可靠。
研究团队提出键值均值注意力机制,这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层,仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异,仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现,无需定制内核,支持分块并行化训练与预填充,兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存,并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择,也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。
研究团队提出嵌入式语言流(ELF),这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同,ELF在绝大部分采样过程中保持在连续空间,仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术(如无分类器引导)。实验表明,ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型,并能以更少的采样步骤实现更优性能,为构建有效的连续扩散语言模型提供了新路径。
本研究探讨了在微调Adam预训练模型时,若将优化器直接切换为Muon会导致性能下降的问题,并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识,且其影响程度与参数更新强度成正比。实验表明,通过采用LoRA等参数高效微调方法来约束更新,可以有效缓解该问题。在语言和视觉任务中,LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实,不匹配的严重程度确实与更新强度相关。相关代码已开源。
研究团队推出机器人记忆基准 RoboMemArena,包含26个长轨迹任务,平均轨迹长度超1,000步,其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹,并提供记忆相关标注,同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构,通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库,并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型,为复杂记忆系统的设计提供了新见解。
本文提出CapVector方法,以解决预训练视觉-语言-动作模型在标准微调中性能提升有限的问题。该方法将辅助目标微调的两个核心目标——增强通用能力与拟合任务特定分布——在参数空间进行解耦。仅需在小规模任务集上使用两种策略训练至收敛,所得两模型间的参数差值即构成“能力向量”。该向量与预训练参数合并后,能形成能力增强的元模型。实验表明,结合轻量正交正则化的标准微调,能以更低计算成本达到与辅助微调基线相当的性能,且所得向量在不同模型与新环境中均表现出有效性和泛化能力。
推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理,但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断,但增加了复杂性。本文提出SlimSpec,采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出,从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估,SlimSpec在延迟和吞吐量场景下,相比标准LM-Head实现了4-5倍加速,同时保持有竞争力的接受长度,端到端加速效果超越现有方法8-9%,且对训练和推理流程改动最小。
研究提出TMAS框架,通过组织多个专用智能体在推理过程中进行协作,实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统:经验库存储可靠的低层中间结论与局部反馈以供复用,指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时,团队设计了适配TMAS的混合奖励强化学习方案,在保持基础推理能力的同时,提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中,TMAS展现出优于现有基线的迭代扩展能力与稳定性。
为克服混合专家模型参数量大导致的存储与访存瓶颈,研究团队提出稀疏MoE架构DECO,以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由,自适应平衡路由专家与共享专家的贡献,并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明,在总参数量和训练数据量相同的情况下,DECO仅激活20%的专家即可匹配稠密Transformer性能,且超越现有MoE基线;其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。
本文提出Alpha Blending假说,认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹,而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法,仅使用真实人脸与自混合图像训练,在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测,AUROC指标提升至94.0%,达到最新最高水平。代码与模型将公开。
针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题,本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化,引入基于一致性相关系数的奖励机制,在批次层面提供基于比较的监督,使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中,该方法相比监督微调和现有回归方法取得了持续改进,尤其在中等样本和少样本场景下提升显著。
研究团队提出了视觉排版优化任务,旨在通过迭代的视觉验证与源码修订,将可编译的LaTeX论文转化为视觉精良且符合页面预算的PDF。为此,他们构建了PaperFit-Bench基准,涵盖10种会议模板和13种缺陷类型。论文提出的PaperFit系统是一个视觉在环的智能体,能够迭代渲染页面、诊断排版缺陷并执行约束修复。实验表明,PaperFit大幅优于所有基线方法,证实了从可编译源码到可出版PDF的转化需要视觉在环的优化,且该任务是文档自动化流程中一个关键缺失环节。
Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。
研究团队发布WorldReasonBench基准,旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例,涵盖物理、社会、逻辑和信息四大维度及22个子类,要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法:过程感知推理验证通过结构化问答检测时序与因果错误;多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现,当前先进模型在视觉合理性与世界推理能力间存在显著差距,生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。
针对现有AI研究系统缺乏跨项目知识复用、用户经验保留与隐式偏好学习能力的问题,本文提出NanoResearch多智能体框架。该框架通过技能库、记忆模块和无标签策略学习三层结构协同演化:技能库提炼可复用操作规则,记忆模块保存用户与项目特定经验,策略学习将自由反馈转化为规划器参数更新。三者循环促进,使系统能基于个人历史与偏好持续自我优化。实验表明,NanoResearch性能显著优于现有系统,并能随使用周期不断降低成本、提升研究成果。
研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。
研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona,涵盖文本、图像和音频三大模态,包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由,并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距,同时发现可回答召回率和参数规模不能完全诊断模型表现,而基于结果的强化学习虽泛化更一致,但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。
针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题,研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制,通过量化生成模型在有无自生成提示条件下预测结果的偏移,为自我改进提供信号。在此驱动下,提议模型持续生成挑战性查询与提示以针对生成模型的盲点,生成模型则内化这些提示引导的改进。理论分析表明,在理想条件下,该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督,绕开了外部评判者的能力上限,为不可验证领域的持续模型进化提供了可扩展且稳健的路径。