大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。
大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。
针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。
本研究构建了一个两层自主研究系统:外层AI智能体自主重新设计内层用于多智能体序列社会困境(SSDs)的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标(功利效率与最大化最小)下,该系统在性能上可靠地超越手工设计的基准,显著降低运行方差,并优于仅优化提示词的方法。研究发现,所发现的流水线具有目标依赖性:仅在最大化最小目标下,系统才会向合成器流水线注入显式的公平机制,这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在,支持了信息设计理论的观点。
本文介绍了CausaLab,这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度:智能体能否利用因果证据解决问题,以及其答案是否基于忠实恢复的因果机制。每个实验中,智能体接收先验观测数据,对操纵晶体进行干预,并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型(SCM),成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距:在6节点纯观测设置中,GPT-5.2-high的任务准确率达92%,但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度,而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点,一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来,揭示了当前LLM智能体作为实验因果推理者的局限。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》为解决轻量级移动端GUI智能体在端到端规划上的不足,本文提出UI-KOBE框架。该框架通过自主探索移动应用,构建包含UI状态节点与转换边的应用知识图谱。运行时,轻量级智能体可利用该图谱作为外部引导,结合用户任务与当前屏幕截图,在多种候选动作中进行选择。此方法减轻了轻量级模型进行端到端规划的负担,使其能更有效地执行任务,并兼顾效率、可解释性与隐私保护。
自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧,导致注意力缓存中的关键值表示占据特权位置,使生成的视频动态性不足、场景进展迟缓,呈现时间上的浅薄性。为此,AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量,模型在每个生成块中将其与内容一起去噪,但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点,使参考点随内容演化。这一设计将时间视为相对概念,为生成过程引入了循环性。实验证明,该自适应状态显著提升了视频动态性,能实现更丰富的运动和自然的场景进展。
视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。
AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法,构建了数据引擎,仅用约1k样本训练出0.8B至8B参数的模型变体,性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境,大幅降低部署开销,并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平,所有模型和数据集均已开源。
现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。
当前数据驱动方法在静态3D物体重建上表现突出,但生成符合物理规律的4D动态形变仍具挑战,现有方法多依赖预定义物理模型与参数估计,局限于特定类别。该研究提出NeuROK,通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器,实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型,将动态生成简化为低维潜空间中的操作,从而能更高效地生成多类物体的逼真动态。
minWM 是一个开源全栈框架,能将现有的双向视频扩散基础模型(如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B)转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程,包含可控微调、Causal Forcing++ 流水线与蒸馏步骤,并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。
GenClaw提出一种代码驱动的智能体图像生成范式,让AI智能体像人类艺术家一样分步创作:先通过搜索与推理构建概念,再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图,最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布,将图像生成从黑盒过程转变为类似人类创作的分步流程,迈向更高可控性与可解释性的视觉生成系统。
现有视觉语言模型存在“载体敏感性”问题,即将文本问题替换为等义图像后性能会显著下降,原因在于训练数据中文本和图像的角色不对称。为此,研究者提出一种轻量级、架构无关的数据整理范式LoMo,其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列,来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明,LoMo能有效提升模型的多模态推理能力,相比标准SFT,LLaVA-OneVision-1.5-8B提升2.67分,Qwen3.5-9B提升2.82分。
针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。
本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现,小模型因神经元资源有限,倾向于将其分配给高频或低复杂度任务,导致其在罕见复杂任务上表现不佳,即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈:它们能为常见任务分配足够资源,使得相关梯度更新变弱,从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型(4M至4B参数)在新任务上的预训练验证了这一结论:只有更大的模型学会了不频繁且复杂的任务,且这些模型在表征中嵌入了更多任务特征,任务间的梯度干扰更少。
PhoneWorld 提出了一种可重用流程,能将真实的手机 GUI 轨迹和截图转化为可控的智能体环境、可执行任务及自动验证器。该系统覆盖了 16 个领域的 34 款应用。实验表明,在固定训练预算下,用 PhoneWorld 数据替代部分基准数据,可同步提升四个评测基准的得分。研究还发现,增加 PhoneWorld 监督数据或扩大应用覆盖范围能进一步提升性能,这标志着从构建单一基准转向规模化供应智能体环境的范式转变。
针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。
强化学习后训练能提升大语言模型的推理能力,但也可能引入数据污染,影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此,研究提出了LaRA框架,通过逐层分析模型表征来检测污染。该框架引入三个互补指标,分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现,污染会导致模型表征在各层出现渐进式几何偏差。基于此,研究开发了一种聚合各层与各指标表征偏差的检测协议,实验表明其性能优于现有的输出级基线方法。
本研究使用 LoRA 作为控制探针,系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律,建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变,表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此,设计了阈值引导的优化策略 MemFT,能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。
训练能够进行多步规划和动态适应的终端环境语言智能体,其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen,可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源:包含10个领域、11,255条专家轨迹的SFT数据集,以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问(Qwen)系列模型进行微调后,智能体性能显著提升,其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization(DMPO)可带来进一步性能提升。
SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大,引发 Loss Spike。蚂蚁百灵(Ling)团队提出的 PowLU,在正半轴用幂函数替代指数衰减因子,使增长曲线更平缓。Scaling Law 实验(26M–368M 参数)显示 PowLU 与 SwiGLU 拟合曲线几乎重合;7.9B(600B token)和 124B(800B token)模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32,有效压缩数值动态范围,减少极端异常值。
AgentOdyssey 是一个程序化生成开放式文本游戏的评估框架,用于衡量智能体在测试时的持续学习能力。游戏包含丰富实体、世界动态和长周期任务,要求智能体在部署中交替进行学习与推理。评估体系不仅跟踪游戏进度,还诊断世界知识获取、情景记忆、探索多样性及模型成本。实验显示,即使最强基础模型驱动的智能体也远低于人类水平,而短期记忆对多种智能体范式有显著提升作用。
针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题,提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布(基于语言模型提供的特权反馈),提供token级监督并注入外部知识。在Lean4定理证明任务上,Feedback Distillation相比GRPO保持更高轨迹多样性,获得更高策略熵和更好的pass@k缩放。两种方法互补:从Feedback Distillation检查点初始化GRPO优于单独使用任一方法,为改进复杂推理后训练提供了有前景的方向。
SCOUT框架通过预测每个检测器对样本的可靠性与延迟,动态决定每个请求运行哪些检测器以及是否升级到GPT-4o judge,避免固定单检测器管线的盲区。在SCOUT-450基准上,安全导向操作点相比始终启用GPT-4o judge使攻击成功率降低46%、总时间降低40%,良性效用仅下降5.1点。该框架还能迁移到BIPIA、IPI和IHEval三个外部基准,改善安全-效用边界。
一项研究检验了人类心理测量问卷能否可靠描述和预测LLM在日常用户交互中的行为。研究者分析了8个开源大语言模型,对比了Likert自评问卷(PVQ-40/21和BFI-44/10)与基于用户日常查询生成概率得到的价值/人格画像。结果显示两种画像显著不同:问卷条目中的显性词汇线索让模型识别出目标构念并给出符合对齐、社会期望的回答,而真实用户查询无此类线索。此外,人口统计角色提示在问卷中能按人类模式改变模型回答,但在真实用户查询的生成概率中无此变化,表明其模拟目标人群行为的局限性。研究认为人类心理测量问卷不足以预测LLM行为,建议采用基于生成的画像作为更准确的度量。
蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。
通过分析多操作数加法中的残差流几何结构,发现Iso-Raw-Sum Trajectory (IRST)几何结构,其中表征由语义数字锚定并被连续进位纤维调制。提出Noisy Quantization Model,将算术错误解释为内部神经噪声推动连续潜在进位势跨越量化阈值导致的Geometric Slippages。该几何框架阐明了Probe Versatility,即轻量探针如何从单次激活向量中分离共存潜在信号(如真实值与幻觉)。最后,通过几何一致性检验方法在推理中检测并纠正这些量化失败。代码已开源。
MechVQA是一个面向机械工程图纸理解的全面数据集,通过半自动构建与质量控制流程生成,包含3.3k高密度图片和21K问答对,覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集,研究团队开发了MechVL模型,采用多阶段训练范式,在MechVQA总分上超越最强闭源基线7.57个百分点,显著提升机械图纸理解能力,为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。
针对可验证奖励强化学习(RLVR)中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题,提出原子分解与重组(ADR)框架。ADR 将代码任务分解为原子元素并受控重组,从而生成真正新颖且高难度的可验证代码任务。实验表明,ADR 在原创性、难度、多样性和测试质量上均优于现有基线,并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。
Functional Attention 将注意力机制重新解释为自适应基之间的函数对应,受几何函数映射启发,用结构化线性算子替代 softmax 亲和性,从而得到紧凑、可泛化且分辨率不变的表示,显式捕捉全局依赖。实验表明,该方法在求解 PDE、3D 分割和回归等算子学习任务中达到 SOTA 性能,并对不同离散化保持鲁棒。
PaintBench是一个动态可扩展的基准,涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件,并采用确定性像素级评估(mIoU)。在11个图像编辑模型上,当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难,且模型存在针对性专长。场景变化(如物体数量、背景复杂度、配色方案、编辑区域大小)会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证,PaintBench得分与应用任务表现存在强线性相关(R²=0.91,p<0.001)。
SpatialAct是一个基于模拟器的基准,用于评测视觉语言模型(VLM)智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发,设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示,当前VLM在孤立空间推理任务上表现良好,但在多轮反馈中难以维持一致的空间信念并产生可靠行动,表现显著低于人类。结果表明,即便底层控制被抽象,现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。
OpenSTBench 是一个统一的多维评估框架,将语音翻译系统(S2TT 和 S2ST,涵盖离线与流式两种模式)输出转化为共享评估格式,联合评测翻译质量、语音质量、说话人保留、情感与副语言保真度、时间一致性以及延迟。实验表明,翻译质量强的系统在语音质量和时间质量上仍存在显著差异。代码与数据集已开源至 GitHub。
扩散模型存在生成超出真实数据分布的幻觉样本问题。研究者通过密度视角首次实证分数平滑是根本原因,并将幻觉概率与分数函数的Lipschitz常数建立形式化联系。提出方差引导分数调制(VSM)策略,通过控制分数Jacobian降低平滑度,更逼近真实分数函数,在合成与真实数据集上减少幻觉约25%,同时保持高保真度与多样性。论文还推出两个具有极端语义变化的基准数据集用于系统性评估,代码和数据已开源。
针对LLM微调中高质量数据获取难的问题,现有合成方法依赖自然语言描述,不适用于难以表述的领域。本文提出DOMINO,仅以参考样例定义目标领域,通过学习最小充分表示引导生成域对齐数据。DOMINO结合提示调优与对比解缠目标分离域模式与样本噪声。在隐式领域定义的编码基准上,基于DOMINO合成数据微调相比强指令调优基线,Pass@1准确率最高提升4.63%,实现无需手动提示或自然语言规范的自动化域适配。
大语言模型中间训练的数据选择面临异构来源和不同格式的挑战,需兼顾可扩展性与源自适应语义标准。现有方法或仅提供隐式质量信号,或依赖固定评分规则。MIRA提出自锚定评分发现框架,先为每组数据源发现应评估的维度,再将判断蒸馏为可扩展的学生评分器用于全语料过滤。在21个来源、5个源组的代码中间训练中,MIRA在9个代码基准上超越多种基线,仅用半数模型token即达到全语料效果。
αDepth提出一种分层表示方法,将软边界(如毛发、散焦模糊)分解为分层颜色和深度值,以解决立体转换中前景与背景模糊混合导致的深度对应歧义。针对多目标复杂场景,设计圆形Alpha表示(CAR),从全局目标提取转向局部边界分解,无需人工干预即可实现场景级推理。实验表明,αDepth在立体转换中达到最先进水平,消除了软边界处的背景渗色和结构扭曲。