针对On-Policy蒸馏(OPD)在师生模型分布差异较大时训练不稳定的问题,本文提出置信区间On-Policy蒸馏(TrOPD)方法。该方法核心是采用置信区间On-Policy学习,仅在教师提供可靠监督的区域进行蒸馏;结合异常值估计策略处理不可靠区域;并通过离线引导鼓励向可靠区域探索。实验表明,TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。
针对On-Policy蒸馏(OPD)在师生模型分布差异较大时训练不稳定的问题,本文提出置信区间On-Policy蒸馏(TrOPD)方法。该方法核心是采用置信区间On-Policy学习,仅在教师提供可靠监督的区域进行蒸馏;结合异常值估计策略处理不可靠区域;并通过离线引导鼓励向可靠区域探索。实验表明,TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。
LongAttnComp 是一种针对长上下文适配的方法,它通过微调一个轻量级跨注意力评分层,并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调:第一阶段基于 NIAH 风格数据构建通用检索基础,第二阶段通过多跳和推理数据进行扩展。实验表明,在 InfiniteBench Code-Debug 上,LongAttnComp 能够匹配或超越全上下文精度,并显著优于无训练基线。在 LongBench v2 上,两阶段配方在多文档推理任务上有效缩小了性能差距,同时保持了代码调试性能,并可跨三个模型族的四个目标模型进行转移。
本文提出了3DCodeBench,一个系统性基准,用于评估视觉语言模型(VLM)智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果,并建立了基于人类偏好的排名平台3DCodeArena。研究发现,主要失败源于API不匹配,而测试时扩展(如提高思考预算和多轮精炼)能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。
研究提出目标视角复现任务(TVR)与模拟基准TVRBench,评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%,瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架,视觉动作SFT将9B开源模型成功率提升至50.8%,多轮GRPO进一步达到51.4%,为训练主动感知与行动的模型提供了基准。代码与模型已开源。
针对标准精确匹配奖励不适用胸部X光报告生成的问题,提出SDR方法。将报告分割为句子,用冻结的句子Transformer嵌入为无序集合,以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练,BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择,在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号,可在生成中修剪低分候选,减少超过50%的生成token且保持质量。代码已公开。
SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集,包含 52.9 小时 AI 眼镜日常活动记录,同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对,覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索,每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示,现有系统在真实世界记忆任务上远未可靠,需设计仅当证据充分时才作答的接地 AI 记忆架构。
UniKE是首个针对统一多模态模型(UMMs)的跨模态知识编辑基准,包含2971个属性与关系编辑主题。VQA验证显示,文本侧编辑准确率约92%,但图像生成最佳整体VQA准确率仅18.5%,存在明显模态差距。提出的推理增强参数编辑方法在生成前显式激活已编辑知识,使整体VQA准确率提升最多18.6个百分点。机制分析表明,该差距源于编辑后文本表示与图像生成条件路径的对齐不足。文本知识编辑无法可靠跨模态迁移,需开发模态感知的编辑方法。
OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。
FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题,对采样出的候选答案进行逐一验证,并选择聚合得分最高的答案。在四个智能体搜索基准测试中,该框架效果显著:仅用四个采样轨迹,就能将GPT-5-mini的准确率提升8.2个百分点,将Gemini-3-flash平均提升5.6%。使用12个样本时,它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外,该框架还能生成可解释的验证轨迹,有助于审查基准测试错误。相关代码与数据已开源。
针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题,研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集,并利用多个大型视觉语言模型的输出进行了增强。基于此,他们开发了参数高效的视觉语言模型VisAnomReasoner,专用于该任务。实验显示,VisAnomReasoner在VisAnomBench上的异常定位更准确,精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力,精确度和F1值分别提升了9.57和13.39个百分点。
RePoT是一种确定性验证重放方法,用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时,它会回溯到已验证的前缀状态,并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中,RePoT比PoT高出+3至+11个百分点,并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明,检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。
CoHyDE 是一种迭代训练框架,旨在解决大语言模型智能体在大型 API 目录中进行工具检索时面临的核心瓶颈。用户查询常使用口语化、描述不充分的自然语言,而 API 目录使用固定的技术性术语。该框架将稠密编码器与 LLM 重写器视为一个协同演化系统进行训练:编码器在重写器生成的、符合目录风格的假设性描述上通过 InfoNCE 进行重训练;重写器则通过 DPO 根据编码器的检索分数进行偏好对齐。在 ToolBench 目录约 10k 工具的子集上,三轮 CoHyDE 迭代后,其在标准查询上的 NDCG@5 得分较最强单组件基线提升 +2.5 pp,在模糊查询上提升 +6.3 pp。消融实验证实,协同训练是该方法在结构化与模糊查询上均取得优势的关键。
PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。
自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效,但缺乏显式3D意识,易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验,使用SAM3D估计物体几何与位姿,并通过渲染比较优化进行细化。随后,基于估计位姿将PartField描述符从重建几何渲染至图像平面,生成几何感知特征图以补充DINO与Stable Diffusion特征,同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督,训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同,此框架自动获取实例级3D结构并用于指导对应学习。实验表明,该方法在减少人工几何监督的同时提升了语义对应性能。
大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。
针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。
GenClaw提出一种代码驱动的智能体图像生成范式,让AI智能体像人类艺术家一样分步创作:先通过搜索与推理构建概念,再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图,最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布,将图像生成从黑盒过程转变为类似人类创作的分步流程,迈向更高可控性与可解释性的视觉生成系统。
针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。
强化学习后训练能提升大语言模型的推理能力,但也可能引入数据污染,影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此,研究提出了LaRA框架,通过逐层分析模型表征来检测污染。该框架引入三个互补指标,分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现,污染会导致模型表征在各层出现渐进式几何偏差。基于此,研究开发了一种聚合各层与各指标表征偏差的检测协议,实验表明其性能优于现有的输出级基线方法。
针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题,提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布(基于语言模型提供的特权反馈),提供token级监督并注入外部知识。在Lean4定理证明任务上,Feedback Distillation相比GRPO保持更高轨迹多样性,获得更高策略熵和更好的pass@k缩放。两种方法互补:从Feedback Distillation检查点初始化GRPO优于单独使用任一方法,为改进复杂推理后训练提供了有前景的方向。
蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。
通过分析多操作数加法中的残差流几何结构,发现Iso-Raw-Sum Trajectory (IRST)几何结构,其中表征由语义数字锚定并被连续进位纤维调制。提出Noisy Quantization Model,将算术错误解释为内部神经噪声推动连续潜在进位势跨越量化阈值导致的Geometric Slippages。该几何框架阐明了Probe Versatility,即轻量探针如何从单次激活向量中分离共存潜在信号(如真实值与幻觉)。最后,通过几何一致性检验方法在推理中检测并纠正这些量化失败。代码已开源。
MechVQA是一个面向机械工程图纸理解的全面数据集,通过半自动构建与质量控制流程生成,包含3.3k高密度图片和21K问答对,覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集,研究团队开发了MechVL模型,采用多阶段训练范式,在MechVQA总分上超越最强闭源基线7.57个百分点,显著提升机械图纸理解能力,为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。
针对可验证奖励强化学习(RLVR)中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题,提出原子分解与重组(ADR)框架。ADR 将代码任务分解为原子元素并受控重组,从而生成真正新颖且高难度的可验证代码任务。实验表明,ADR 在原创性、难度、多样性和测试质量上均优于现有基线,并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。
Functional Attention 将注意力机制重新解释为自适应基之间的函数对应,受几何函数映射启发,用结构化线性算子替代 softmax 亲和性,从而得到紧凑、可泛化且分辨率不变的表示,显式捕捉全局依赖。实验表明,该方法在求解 PDE、3D 分割和回归等算子学习任务中达到 SOTA 性能,并对不同离散化保持鲁棒。
OpenSTBench 是一个统一的多维评估框架,将语音翻译系统(S2TT 和 S2ST,涵盖离线与流式两种模式)输出转化为共享评估格式,联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明,翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。
扩散模型存在生成超出真实数据分布的幻觉样本问题。研究者通过密度视角首次实证分数平滑是根本原因,并将幻觉概率与分数函数的Lipschitz常数建立形式化联系。提出方差引导分数调制(VSM)策略,通过控制分数Jacobian降低平滑度,更逼近真实分数函数,在合成与真实数据集上减少幻觉约25%,同时保持高保真度与多样性。论文还推出两个具有极端语义变化的基准数据集用于系统性评估,代码和数据已开源。
MindZero是一个自监督强化学习框架,用于训练多模态大语言模型进行高效、鲁棒的在线心智推理。该方法通过让模型生成使观测到的行为似然最大化的心理状态假设来获取奖励,从而无需显式的心智状态标注。训练后,MindZero将基于模型的推理内化为快速的单次推理。在网格世界和家庭环境的评估中,它在精度和效率上均显著优于传统的基于模型的方法。
研究提出了 MineExplorer 基准测试,用于评估多模态大语言模型智能体在 Minecraft 开放世界中的探索能力。该基准采用 ReAct 式能力表述,将原子任务组合为隐式多跳任务,并利用多智能体合成工作流共同设计任务图、沙盒场景和基于规则的里程碑评估器。实验表明,开放世界探索仍具挑战性,强模型能处理许多单跳任务,但在需要协调更长轨迹中隐藏先决条件时性能急剧下降。代码与数据集已开源。
为评估视觉基础模型对物体部件的细粒度理解能力,研究提出了新基准SOCO。该基准建立了语义对应类型分类体系,提供了跨100个类别、超过100万对应对的统一关键点标注,并包含关键点语言描述,以支持对大型视觉-语言模型的评估。实验发现,视觉基础模型虽编码了强语义结构,但在相关类别间的对应关系迁移能力较弱;大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配;且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。
提出一种名为SPD的推测解码框架,通过将目标大语言模型(LLM)划分为n个流水线阶段来并行处理n个token,以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token,并与目标模型的流水线步骤严格并行执行,从而实现有限难度、更高接受率和零延迟气泡。实验显示,SPD的理论加速比显著高于主流基线。
SurGe 模型解决了 feedforward 3D 重建方法在点映射中局部表面几何不准确的问题。它引入了点映射法线指标来评估局部表面方向,并提出点梯度匹配损失和 Neighborhood Attention Decoder (NAD) 两个组件。在八个零样本单目几何基准测试中,SurGe 在全局点映射 AbsRel 上获得最佳平均排名,并一致改善局部点映射和法线评估。
人类能轻松完成概念绑定,而以CLIP为代表的视觉-语言嵌入模型在此方面存在不足。研究发现,尽管CLIP的场景嵌入可通过加法分解为物体表示,但其绑定函数的复杂度较高,阻碍了模型学习能泛化到新概念组合的共享机制。不过,这种限制并非根本性的。研究表明,从头训练的受控Transformer模型在数据覆盖充分时,能通过概念间的乘法交互学习到低复杂度的绑定函数,从而实现系统性的泛化。
视频语言模型处理帧数有限,帧选择是视频描述的效率瓶颈。现有自适应方法计算成本高。本文提出PEEK,一种高效的动态帧采样方法,通过知识蒸馏将依赖描述信息的帧排序能力从教师模型压缩到仅依赖视觉内容的轻量级时序模型中。实验表明,在ActivityNet Captions和MSR-VTT数据集上,PEEK在所有测试的视觉语言模型上均优于现有方法,尤其在仅选1-2帧时表现最佳。在ActivityNet Captions的16种配置中,PEEK在14种中胜出。该方法仅增加5.2%的描述生成时间,远低于CSTA(65.4%)和MaxInfo(211.9%)。
SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作:一个“挑战者”生成基于文档的任务,一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判,为任务生成评分标准并打分。在三个7-8B参数的指令微调模型(Qwen2.5, Qwen3, OLMo-3)上进行的实验显示,SCOPE将开放式任务性能在八个基准上最高提升了10.4分,达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练,SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明,共同演化挑战者对维持任务难度是必要的,检索与合成能力均有贡献,而生成质量是自我评判的瓶颈。
SwanVoice 是一个支持 1-4 位说话人的零样本文本转语音(TTS)模型,旨在解决现有方法在合成富有表现力的长对话时推理成本高、声学一致性和情感连贯性差的问题。模型基于 SwanData-Speech 数据集构建,采用 25Hz VAE 与带停顿感知符号的原始文本条件处理,并结合具有说话人轮次条件的 flow-matching DiT。训练从独白数据开始,逐步过渡到真实对话数据,并使用 DiffusionNFT 进行后训练。在 SwanBench-Speech 评测中,SwanVoice 在独白和对话设置下的丰富性与层次性分数均优于所有开源基线,但内容准确性仍是主要限制。音频 demo 已上线。
针对大语言模型在长上下文推理中难以定位关键信息的问题,现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题,并利用搜索智能体的轨迹构建分级干扰文档,从而生成更具挑战性的训练数据。其创新性地提出评分奖励,使用推理链上的金标准实体作为细粒度的过程监督,且仅应用于最终答案正确的响应,以此区分推理质量并防止奖励作弊。实验表明,该方法在多个长上下文基准测试中优于强基线。
本文提出StateKV,一种推理时方法,使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文,并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明,StateKV的性能接近全自注意力机制,并持续优于主流的滑动窗口等流式近似方法,且无需微调或架构改变。该方法降低了预填充的FLOPs成本,允许在固定算力下使用更大模型以获得更高准确率,为可扩展的长视频理解提供了实用方案。