Arbor是一个结合长期协调器、短期执行器和假设树优化(HTR)的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察,将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor均取得最佳留出结果,平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到86.36%的Any Medal,为对比中最优成绩。
Arbor是一个结合长期协调器、短期执行器和假设树优化(HTR)的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察,将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor均取得最佳留出结果,平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到86.36%的Any Medal,为对比中最优成绩。
大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。
World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
该综述系统研究了大语言模型智能体的环境工程生命周期,涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径;归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角,总结四种智能体演化路径(记忆中心、编排中心、轨迹中心、探索中心)与三种环境演化范式(神经驱动、难度驱动、规模驱动)。最后展望环境即服务(EaaS)、多智能体环境和神经符号环境等方向。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。
研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。
ICALens基于独立成分分析(ICA)构建轻量级语言模型表示解读工具,通过GPU并行FastICA流程与LLM稳定性优化,在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向,无需逐层梯度训练字典。在SAEBench上,ICA在稀疏探测任务中与公开SAE性能相当,并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。
一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。
LingxiDiagBench是一个多智能体基准框架,基于LingxiDiag-16K数据集(16,000个EMR对齐的合成咨询对话,覆盖12个ICD-10精神疾病类别),评估LLM在静态诊断推理和动态多轮中文精神科咨询中的表现。实验发现:LLM在二元抑郁-焦虑分类上准确率达92.3%,但抑郁-焦虑共病识别仅43.0%,12类鉴别诊断仅28.5%;动态咨询表现常低于静态评估,表明信息收集策略不足损害诊断质量;LLM-as-a-Judge评估的咨询质量与诊断准确性仅呈中等相关。数据集和框架已开源。
DailyReport 是一个用于评估搜索智能体(Search Agents)在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则,将每个任务分解为子任务,并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合,得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示,当前系统仍未达到用户期望。数据集和代码已公开。
HiLo-Token提出输入自适应高低频token压缩框架,解决扩散Transformer(DiT)在图像编辑中的延迟瓶颈——即使从50步蒸馏至8步,DiT仍占73%延迟。方法在用户掩码编辑区域内保留所有token维持局部关联性;外部区域基于空间频率选取高频token捕捉细节,并用16倍下采样图像的低频token保持全局结构。在生产级评估数据上,针对平均掩码比6.38%、15.92%、35.36%的小/中/大掩码编辑任务,在A100-80GB上分别实现3.13倍、2.59倍、1.67倍DiT加速,且生成质量无退化。
针对电子表格中预测用户后续操作的功能缺失,该研究提出新的评估基准。手动从公开语料库整理52个操作序列(共计12K条操作),通过参数化启发式与LLM精炼生成。在线评估方法在每个用户操作后要求模型进行预测,接受或拒绝预测结果,接受则更新后续操作,直至目标电子表格达成。基线预测器涵盖零样本LLM、微调SLM与经典模型。实验分析了已保存操作与假阳性、效率、用户画像、触发条件和上下文等关键属性。
视觉语言模型通常训练为被动回答者,主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架:VLM自身作为提议者和过滤器,生成更难、信息更丰富、更视觉中心的问题,同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议,从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界,且自我进化的提问者仍保持甚至增强回答性能。
分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。
大语言模型虽在数学与符号推理上表现出色,但无法理解量子表示(如酉矩阵)。本文提出将酉算子映射到LLM潜在空间,实现量子输入与语言输入的联合建模。在Clifford+T电路合成上,该模型达到与最先进方法竞争的性能,且随训练数据规模扩展持续提升,未见饱和迹象。方法还支持语言条件合成,允许以自然语言指定训练中未见过的门约束。这项工作为构建原生理解量子运算的量子感知基础模型铺平道路,可能对量子编译与算法发现产生广泛影响。
研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。
World Tracing 是一种生成式像素对齐几何表示,为每个输入像素预测有序的相机空间3D点栈,第一层对应可见表面,后续层表示从前到后的遮挡表面交点。该表示通过世界追踪扩散Transformer(WT-DiT)实例化,将多个几何层视为独立去噪token,经分解注意力和全局注意力耦合。采用像素空间流匹配和混合噪声调度训练,平衡可见表面重建与遮挡几何生成。在目标、场景和动态基准上,World Tracing在可见表面重建和完整几何生成方面均优于深度预测器和图像转3D生成器,并保持2D-3D对应,支持文本驱动的3D场景编辑、几何条件新视角视频合成及与纹理网格生成器的无缝集成。
针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限,研究者提出V-RAGBench基准,包含(query, evidence chunk, answer)三元组,支持检索与生成的解耦评估;同时提出CARVE方法,通过并行运行多配置检索器并对每个chunk进行自适应重排序,为每个chunk选择最优配置,使生成阶段交织不同配置的证据块。在长视频场景下,CARVE在八个近期VideoRAG基线方法中取得最优结果。
从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。
在线策略蒸馏(OPD)结合智能体在线轨迹与密集教师监督,分析发现其更新幅度小且坐标稀疏,分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能;但密集监督保留异质梯度尺度,SGD逊于AdamW。几何上更新满秩但谱集中,主要偏离源权重主奇异子空间,落在源权重近零的坐标上。
研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。
μ_0是基于3D轨迹的可扩展世界模型,通过预测物体、工具、手及接触区域等关键交互点的平滑3D轨迹,形成紧凑且无关具身形态的运动接口。其配套的TraceExtract系统可从多样化视频源自动提取3D监督。μ_0结合预训练视觉-语言骨干与模块化轨迹专家,用B样条控制点表示查询并预测未来轨迹。实验显示,μ_0在2D和3D轨迹预测上优于基线模型。冻结后的μ_0可搭配下游机器人动作专家,无需动作标签预训练的策略性能与使用动作监督预训练的VLA模型相当。
Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
Google Research 在 AISTATS 2026 发表正则化 f-散度核检验,用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据,避免完全重训的巨大成本。相比最大均值差异等现有工具,新框架理论上可在任意样本量下自然控制假阳性,且假阴性风险随可用样本增加可靠收敛至零,解决了大规模模型审计中计算成本过高的问题。
Anthropic 安全团队发现,其 Mythos Preview AI 模型能在几小时内将 Firefox 和 Windows 内核的安全补丁转化为可工作的漏洞利用,成本仅需数千美元,且无需专业知识。在微软自动更新到达任何设备之前,该模型已完成 8 条完整攻击链。Anthropic 认为传统的补丁节奏已经过时。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。
Waymo与代尔夫特理工大学合作开发ReD(Reference Driver)认知模型,基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估,并还原单脚操作踏板习惯(切换停顿0.2秒)。与传统模型不同,ReD持续计算意外值并最小化自由能,实现主动避让。今年1月圣莫尼卡事故分析中,Waymo车辆减速至6英里/小时,而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制,在固定缓存预算下将历史 KV 块组织成时间层次,利用频率依赖的时间衰减(细粒度细节快速去相关,粗粒度场景结构保持更久)。生成时新历史作为细粒度条目插入,较旧相邻条目按幂律调度逐步合并,形成近密远疏内存。无需改动架构,即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。
百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。
BrainSurgery是一种针对神经网络checkpoint的“张量手术”工具,通过声明式YAML计划执行复杂的权重变换。它支持结构修改、数学变换、张量重塑,利用正则表达式和结构定位进行精准操作,并内置断言验证张量形状、数据类型和值,防止静默错误。工具覆盖从模型升级(upcycling)到LoRA提取等四个示例和三个案例研究,旨在提供可重复、可验证的模型编辑基础。