为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。
为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此,研究团队提出FaithfulFaces框架,其核心是一个姿态共享身份对齐器,通过姿态共享字典与姿态变化-身份不变性约束,在不同视角间对齐面部姿态,并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示,为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明,该框架在动态复杂场景中实现了最先进的性能,能有效保持身份一致性与结构清晰度。
随着AI智能体在复杂工作流中的广泛应用,其安全风险日益凸显。研究团队推出DecodingTrust-Agent Platform (DTap),这是首个可控、交互式的AI智能体红队测试平台,覆盖14个真实世界领域和超过50个模拟环境,复现了Google Workspace、Paypal和Slack等系统。平台进一步提出自主红队测试智能体DTap-Red,能系统探索提示、工具、技能、环境等注入向量,并自主发现针对恶意目标的攻击策略。利用DTap-Red构建了大规模红队测试数据集DTap-Bench,包含跨领域高质量实例,每个配有可验证评判器以自动确认攻击结果。通过DTap对基于多种骨干模型的流行AI智能体进行大规模评估,揭示了系统性漏洞模式,为开发安全下一代智能体提供了重要洞见。
本文提出了CoREB,一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准,并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建,采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括:专用代码嵌入在代码到代码检索上优势显著(约2倍于通用编码器),但无单一模型全胜;接近真实开发者搜索的短关键词查询会使所有模型性能骤降;现有重排序器存在任务不对称性,而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。
KernelBench-X基准测试系统评估LLM生成的Triton GPU内核,涵盖15个类别共176项任务。研究比较五种代表性方法,发现:任务结构对正确性的影响远超方法设计,类别因素解释的方差是方法的近三倍;迭代优化将编译成功率从52.3%提升至68.8%,但平均加速比从1.58倍降至1.44倍;46.6%的正确内核性能低于PyTorch基线,量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。
RaguTeam团队在SemEval-2026任务8的B任务(基于参考段落生成)中获胜。其方法采用一个包含七个大型语言模型的异构集成系统,结合两种提示变体,并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一,以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明,模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1,在成本与性能间取得了良好平衡,并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。
ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器,它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能,可在同一模型内直接重写选定令牌,无需额外优化网络。模型采用两阶段训练:先通过扰动专家轨迹进行监督学习,再利用强化学习微调“决策-起草-反思”全流程,将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中,该模型仅使用摄像头输入即达到91.0 PDMS,在最优6次采样下可达94.8 PDMS,平均延迟为31.8毫秒。
基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。
研究团队提出神经规则归纳器(NRI),一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限,转而使用类条件率、熵等与领域无关的统计属性来表征文字,从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器,后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行,支持仅基于预测准确性的端到端训练。评估表明,NRI在规则恢复、对噪声和虚假相关性的鲁棒性,以及在真实世界基准上的零样本迁移方面表现良好,为符号推理的基础模型开辟了新可能。
本文针对AI开发者提出关键观点,主张智能体技能应被视为默认不受信任的代码,而非仅凭签名或来源就推断其可信。当前运行时环境默认信任已签名技能的做法存在安全风险。论文强调,技能必须经过独立的门控验证流程才能被信任,否则,每次不可逆调用都需要人工介入,这在大规模应用中会退化为无效的“橡皮图章”式批准。将技能作为一等部署工件并引入验证流程,是借鉴软件供应链安全经验、避免技能库成为下一个攻击面的关键。论文呼吁在技能库普及前,通过严格验证建立安全基准。
为降低大语言模型推理时KV缓存的高昂内存开销,研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由,在Transformer模型的各层之间动态共享KV缓存,而非每层保留完整独立缓存。实验表明,在保持模型质量基本不变的前提下,该方法能将KV缓存的内存占用减少高达50%,为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。
研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。
New paper from MATS, Redwood, and Anthropic! If a capable model is strategically sandbagging, can we train it to stop wh...
Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。
Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...
关联讨论 1 条X:Berry Xia (@berryxia)大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务,覆盖21个专科,平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点,通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中,最佳模型成功率仅为46%,开源模型最高仅达19%,显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。
多轮强化学习训练常因探索效率低下而不稳定。为此,研究团队提出T^2PO框架,在细粒度层面实施不确定性引导的探索控制。在令牌级别,它监测不确定性动态,当边际变化低于阈值时触发思考干预;在轮次级别,它识别探索进展可忽略的交互并动态重采样,以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明,T^2PO显著提升了训练稳定性与任务性能,并实现了更高效的探索。相关代码已开源。
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。
研究提出LIMEN框架,利用大语言模型引导进化,从原始模拟器状态自动生成完整的强化学习任务接口,包括观察映射和奖励函数。该方法将候选接口作为可执行程序进行迭代优化,并依据策略训练反馈进行改进。在离散网格世界及连续控制领域的测试表明,仅给定轨迹级成功指标,联合进化观察与奖励即可发现有效接口,而单独优化任一组件则在至少一个领域失败。这证明从原始状态自动构建接口能大幅减少人工工程,且观察与奖励的协同设计至关重要。
针对LLM智能体技能在不同框架间因提示格式敏感导致的性能差异(高达40%)及普遍存在的安全漏洞问题,研究团队提出了SkCC编译框架。该框架基于强类型中间表示SkIR,将技能语义与平台特定格式解耦,实现跨框架便携部署。其编译时分析器通过“反技能注入”机制在部署前强制执行安全约束,将适配复杂度从O(m×n)降至O(m+n)。实验表明,编译后技能性能显著提升,如Claude Code通过率从21.1%提高至33.3%,同时实现了低于10ms的编译延迟、94.8%的主动安全触发率及跨平台10-46%的运行时Token节省。
研究提出部署时学习作为大语言模型生命周期的第三阶段,并推出CASCADE框架。该框架使LLM智能体能在部署期间从经验中持续学习,而无需更新模型参数。其核心是为智能体配备一个显式、演进的情景记忆,将经验复用建模为上下文赌博机问题,从而实现探索与利用的权衡,并保证长期无悔性。在涵盖医疗、法律、代码生成等16项多样任务中,CASCADE将宏观平均成功率较零样本提示提升了20.9%,且持续优于多种基线方法。这项工作通过将部署重构为自适应学习过程,为持续改进的AI系统奠定了基础。
研究探讨了深度受限Transformer在Horn子句上进行隐式演绎推理的缩放规律。通过系统解耦可证明性与虚假特征、并强制算法对齐,发现在具备双向前缀掩码的足够深模型中,隐式推理在不同图拓扑和问题宽度上能够接近显式思维链的性能表现,但深度外推任务仍需依赖思维链方法。
音频-视觉智能已成为人工智能的核心前沿领域,旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代,音频与视觉的联合建模愈发关键,不仅用于理解,更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而,该领域研究仍较为分散,任务多样、分类不一致、评估方法各异,阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能,建立了统一的任务分类体系,涵盖理解、生成与交互三大方向,并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时,研究梳理了代表性数据集、基准与评估指标,指出同步性、空间推理、可控性与安全性等开放挑战。
评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。
APEX是首个面向AI生成音乐的大规模多任务学习框架,旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲(约1万小时音频)训练,利用自监督音乐理解模型MERT提取音频嵌入,同时预测基于参与度的流行度指标(播放量与点赞数)以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现,加入美学特征能持续提升人类偏好预测准确性,表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。
推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。
为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖,研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构,整合运动感知、记忆决策与物理传感等异构模态,并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中,RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6,尤其在ALLEX人形机器人任务上取得86.8%的成功率,显著高于对照模型的约40%,标志着其在接触密集型动态灵巧操作领域取得关键进展。
针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出,限制了质量提升。Stream-R1框架提出统一的奖励引导机制,从两个层面自适应重加权蒸馏目标:在序列间,依据预训练奖励分数对损失进行重缩放,让高可靠性序列主导优化;在序列内,利用同一奖励模型的反向传播生成像素级时空权重,将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中,于视觉质量、运动质量和文本对齐方面均持续优于基线,且无需改变架构或增加推理开销。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。