Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
DeepMDMD结合深度Koopman方法与结构保持方法,学习潜空间并分区,同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤,得到非零谱位于单位圆上的有限转移图,字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中,比几何MDMD更紧凑且动态一致,减少谱污染,揭示更丰富的连续谱结构,并在严重噪声下稳定预测。在高维流(包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔)中,保持相干结构和长期谱统计,而状态空间MDMD失效。
Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...
一位开发者构建了一个故意包含安全漏洞的Web应用程序,并投入1500美元,用于评估当前主流大语言模型(LLMs)在真实场景中自主发现并利用这些漏洞的能力。测试涵盖了多种模型及其API调用成本,旨在量化LLM在渗透测试与漏洞利用任务上的实际表现与成本效益。结果尚未在正文中提供,但该实验为AI在网络安全攻防中的应用提供了第一手数据。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习(RLVR)下取得进展,但长思维链中的试错和冗余探索被强化,导致过度思考。ThoughtFold 提出细粒度偏好学习框架:通过内省策略识别正确轨迹中的冗余段,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤,从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%,同时保持 SOTA 准确率。
训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题,学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化,通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优,且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
一项干预审计研究揭示了检索增强问答流程中重写器(rewriter)性能提升的因果机制:增益主要来自重写上下文中出现正确答案字符串,而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示,从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点;向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”,但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1,且其中三种未通过等价检验。
GRAIL是一个全虚拟数字生成管线,利用3D资产、仿真就绪场景和视频基础模型先验,合成人形机器人交互数据,无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色,从而更好地约束4D重建,通过基于模型的物体跟踪、人体运动估计和交互感知优化,恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列,涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略,通过仿真到真实迁移部署到宇树G1人形机器人,实现了84%物体拾取成功率和90%爬楼梯成功率。
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。
MeshWeaver提出一种自回归网格生成框架,将网格生成视为表面编织过程,直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器,通过三种方式注入几何上下文:体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明,MeshWeaver达到18%的压缩比(SOTA),可生成最多16K面网格,并在几何保真度上显著超越此前方法。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
现有开放权重视觉-语言模型(VLM)在多图像、多轮智能体场景中,视觉编码器是无状态的,每张图像独立编码,无法访问先前视觉上下文,导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder,将每个视觉表示基于先前视觉特征进行条件化。通过监督微调,配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进,且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中,有状态编码器持续提升通用 VLM 基线,在特定领域匹配或超越专用模型。
可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。
研究收集550段人类对话,在三阶段获取人工判断:提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧,生成回复人类评价不比通用回复好,但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据,但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。
ActiveMimic 是一个预训练框架,从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,从而在野外第一人称人类视频上联合学习主动感知和操作能力,再迁移至目标机器人。跨任务真实世界实验表明,ActiveMimic 持续超越基于人类视频预训练的基线,并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练,而非机器人微调。
基于扩散Transformer(DiT)的视频生成模型因3D注意力平方复杂度导致高推理延迟。现有加速方法在每个去噪步骤内减少计算,但仍要求所有帧经历完整稠密去噪。RhymeFlow提出训练无关框架,解耦不同帧的去噪轨迹:仅对稀疏关键帧执行逐步骤稠密去噪以保持结构完整性,非关键帧逐步跳过步骤降低计算;同时引入潜在轨迹投影模块,使关键帧与完整时序一致的序列表示交互,避免视觉退化。在现有DiT视频生成模型上,RhymeFlow实现了更高推理速度和更好视觉质量。
研究发现,预训练LLM的层可作为模块,对每个输入灵活跳过或循环,形成动态程序(PoLar)。多数输入使用更少层即可达到相同或更高准确率,且原始模型的错误预测可通过更少层的替代程序纠正。为此,研究者提出轻量级PoLar预测网络,为每个输入生成动态跳过或重复层的执行程序。在数学推理基准上,PoLar一致优于标准推理和此前动态深度方法,常在使用更少层时提升准确率,在分布外评估中表现稳定。结果表明,固定深度执行仅捕捉了LLM潜在推理能力的一小部分。
MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图,并通过主动重建机制将 LLM 推理直接融入记忆访问,使智能体在推理过程中基于累积证据动态探索和剪枝检索路径,避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上,MRAgent 相比强基线最高提升 23%,同时显著降低 token 和运行时开销。
大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。
本文提出结构化缺陷定位(SDG),将文本到图像(T2I)模型缺陷诊断建模为结构化集预测,每个缺陷表示为(位置、类型、原因、重要性)元组。构建了SDG-30K数据集(30K图像,来自四种T2I生成器,含框级标注)和评估协议SDG-Eval。在此基础上提出诊断到对齐框架:以视觉语言模型为SDG检测器,BoxFlow-GRPO将预测缺陷集转化为框导出、重要性加权的空间奖励,用于扩散模型对齐。实验表明,SDG检测器在结构化缺陷定位上超越领先专有VLM,SDG引导的奖励持续提升T2I对齐并支持局部图像细化。
针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。
AsyncWebRL采用异步系统设计,重叠rollout、梯度更新与策略刷新,并引入永久rollout池和轻量截图处理,比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k,解除了失败轨迹对梯度权重的耦合,压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA(相对+5.8%),Medium子集+42%,Hard子集+48%。
本研究通过控制实验解耦隐藏状态的径向与角度分量,发现不同激活干预方法的主要差异在于如何耦合 token 与概念方向的角度对齐及隐藏状态范数变化。在七个语言模型上,概念主要编码于角度结构,但范数对干预稳定性和下游效果仍至关重要。结果解释了概念效果相似的干预可能表现不同的原因,建议将激活干预参数化为可解释的角度和径向分量,而非单一加性系数。
LatentSkill通过预训练超网络将文本技能转换为即插即用的LoRA适配器,将技能知识存储在权重空间而非上下文空间,消除每步推理中的技能token开销。在ALFWorld上,seen和unseen分割成功率分别比上下文技能基线高出21.4和13.4个百分点,预填充token减少64.1%;Search-QA精确匹配提高3.0点,技能token开销降低72.2%。生成的技能LoRA形成结构化语义几何,可通过缩放系数精确控制,对齐后能通过参数空间算术组合。该方法提供了高效、模块化且暴露度更低的权重空间技能基底。
对五种LVR变体的测试发现,余弦对齐度与准确率呈强负相关(r=-0.94)。研究提出诊断工具PRISM(线性探针+破坏性测试)发现:有监督潜token大部分被绕过,破坏后准确率变化最多4%;答案在潜token下游可解码、在潜token处不可解码,解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型,而非通过名义上优化的潜变量。
研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。
现有方法将自回归模型(ARLM)转换为扩散语言模型(DLM)时面临两种分布偏移:目标函数切换导致知识丢失,以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM,采用On-Policy蒸馏(OPD)进行转换。学生模型(双向注意力的ARLM)生成自身轨迹,教师模型(冻结的原ARLM)在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练,消除了DLM的训练-推理不匹配,蒸馏机制保留了原ARLM知识。实验表明,OPDLM仅需原训练token量的1/15至1/7000,在多样任务上表现强劲,使DLM转换成为ARLM后训练手段。
UnpredictaBench 测试大语言模型(LLM)捕捉真实底层分布的能力。基准包含 448 个问题,涵盖标准统计分布、随机程序产生的分布以及描述随机过程的自然语言场景。采用 KS@N 指标(基于 Kolmogorov-Smirnov 检验)衡量模型输出与黑盒目标分布的逼近程度。测试开源和闭源模型发现,生成样本数为 100(KS@100)时,得分从接近 0 到超过 20%,没有任何模型达到 40% 以上。增加推理能力可略微提升分数,但无法根本解决该问题。UnpredictaBench 表明即使简单的分布模拟对 LLM 仍具挑战性。
本文认为通用机器人智能常被简化为策略缩放问题,但核心瓶颈并非策略学习,而是缺乏将人类运动、互联网视频等非结构化行为数据转化为具身监督信号的机制。研究者识别出四个缺失接口:自动标注非结构化行为的数据接口、重定向人类运动至机器人动作的具身接口、基于物理的3D推理世界模型接口,以及从视频和语言推断任务进度与成功的奖励接口。文章梳理了机器人基础模型、视频学习等进展,并提出构建能从更广泛物理世界学习的机器人系统研究议程。