AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。
AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。
论文提出自蒸馏策略梯度(SDPG)框架,结合群体相对验证器优势、归一化标准差、精确全词汇在策略自蒸馏及参考策略KL正则化。在稀疏奖励强化学习中,语言模型基于特权上下文自监督生成,利用全词汇学生到教师反向KL散度作为辅助损失。实验表明SDPG在稳定性和性能上优于RLVR和自蒸馏基线。代码已开源。
SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试,覆盖6种可信形式类别和7种细粒度传播风格,并配有FP450真实图像负集。评估显示,在5%假阳性率约束下,现有系统表现不可靠:15个多模态大语言模型仅达10.5%真阳性率,开源AIGC检测器不足5%,商业API达57.6%,人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。
该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。
当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出,两次运行消耗相同预算,但反馈的有效性可能天差地别。为此,研究提出了“有效反馈计算”(EFC)指标,仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明,任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中,采用更好反馈的方法将任务成功率从0.27提升至0.90,而成本和工具调用次数保持不变。 链接:arxiv.org/abs/2605.29682 标题:"Scaling Laws for Agent Harnesses via Effective Feedback Compute"
MMG2Skill-Bench是首个将人类多模态、异构、含噪声的现实指南转化为智能体可执行技能的基准。MMG2Skill框架以闭环方式将指南编译为可编辑技能,在运行中固定VLM智能体,并通过轨迹级根因反馈修订技能。在GUI控制、开放游戏和策略卡牌任务中,使用六种VLM骨干,MMG2Skill在所有模型-领域设置下一致优于普通基线,宏平均提升+12.8至+25.3个百分点。消融实验表明结构化技能构建和轨迹驱动修订缺一不可。
HarnessForge提出元自适应框架,将LLM智能体系统形式化为框架-策略对,通过故障引导的框架定制和框架条件化的策略对齐实现协同进化。在五个跨领域基准上,基于Qwen3-4B和Qwen3-8B的HarnessForge相比仅优化框架或策略的基线最高提升12.0%,表明框架与推理策略的可执行兼容性对智能体系统自适应至关重要。代码已开源。
现有 Auto-Harness 系统仅针对固定离线基准评测,而开放任务流存在无终点历史、异构任务与分布偏移,导致单一密集更新装备性能先升后降。本文提出 Adaptive Auto-Harness,将距 oracle 装备差距分解为进化损失与适配损失,采用状态化多智能体进化器、带求解时路由的装备树及人类引导钩子来解决。在预测市场、安全竞赛与事件预测三个任务流上,该方法优于五个基线,消融实验验证了各模块贡献。代码已开源。
Parallax是一种新的注意力机制,它用一个学习到的投影器取代了LLA中的每查询求解器,从而将算术强度提升了一倍。在0.6B和1.7B的模型规模上,该方法有效改善了模型的困惑度。
TRON 是一个面向视觉推理强化学习(RL)的在线环境框架。它通过可控的生成器-验证器程序,按需生成全新的视觉状态、图像和问答实例。当前 TRON 套件包含 520 个环境,按能力分为五个类别。该框架支持单一全模型训练和按桶训练专家模型,无需额外数据采集,并提供了生成可靠性、多样性等分析。基于 TRON 进行 RL 后训练,能持续提升 Qwen3-VL-4B、Qwen2.5-VL-7B 与 MiMo-VL-7B-SFT 在多个外部多模态推理基准上的性能。
该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
针对深度极小极大搜索与蒙特卡洛树搜索(MCTS)中启发式评估廉价但有偏、准确rollout可靠但昂贵的权衡,提出2FFS,一种双保真度树搜索算法。该算法将多保真度平坦bandit思想引入树结构,结合minimax式快速扩展与MCTS式随机采样,自适应决定何时利用廉价评估、何时调用昂贵准确评估。理论证明固定置信度正确性与有限终止性,并给出多项式深度成本上界。数值实验表明,相比现有BAI-MCTS基线,2FFS所需样本和计算操作显著更少。
针对智能体语言模型中工具调用(短、确定、低困惑度)与规划推理(长、复杂、高困惑度)步骤异构但计算均分的问题,LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器(rank 8,约1.08M参数),仅训练1.10M参数(占494M主干0.22%),3000步(6.4分钟A100 40GB)后实现12.91%跳过差分:工具调用跳过15.25% FLOPs,规划步骤仅跳过2.34%,困惑度分别下降-1.29和-1.30。
大语言模型(LLM)作为合成智能体进行公众舆论模拟时存在“多样性崩溃”问题——不同社会身份的表征在层间逐渐不可区分,导致响应同质化。为此提出参数化社会身份注入(PSII)框架,将人口统计属性与价值取向的显式参数化表示注入LLM中间隐藏状态,实现细粒度可控的身份调制。基于World Values Survey对多个开源LLM的实验显示,PSII显著提升了分布保真度与多样性,降低了与真实调查数据的KL散度。
KITScenes Multimodal是一个欧洲自动驾驶多模态数据集,传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素(含红绿灯)以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市,补充地理多样性。同时推出四个基准:在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。
Agentic LLM结合网络搜索使弱上下文线索可成为跨源重识别证据,现有防御仅移除显式标识符或扰动文本,未充分探索抵抗智能体重识别与保留效用的操作区间。AURA是一种LLM掩码-重构框架,将隐私定位与效用保留重构解耦,并通过对抗性隐私与效用保留检查选择候选。在真实访谈转录上使用网络搜索智能体重识别攻击评估,结合受访者画像、编码本及联合上下文效用网格进行效用评估。结果显示,AURA通过自适应隐私范围提升对智能体重识别的抵抗力,并在固定隐私范围下更好地保留上下文效用。
金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构,将用户、市场、组合和工具事件转化为结构化知识,采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中,InKH平均任务质量0.815(900ms延迟)。相比agent驱动的wiki-walk记忆,延迟降低82.95%,token成本降低82.29%,过时知识使用减少96.58%,质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。
AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。
训练医学图像分割模型需要大量密集标注数据,成本高昂。现有半监督学习依赖伪标签,但模型置信度或不确定性评估存在自我参照问题。本文提出质量引导的半监督学习框架,训练专用网络从图像-掩膜对估计分割质量。该质量预测器通过合成损坏及部分训练模型生成的不完美掩膜进行训练,捕捉真实错误模式。通过质量感知正则化损失和基于质量的伪标签重加权两种机制融入半监督学习,可作为即插即用模块集成到现有框架。在五个数据集和多种架构上的实验表明,该方法持续优于竞品,达到最新水平。
计算化学和生物物理中长期挑战是高效采样分子玻尔兹曼分布。现有方法通过迭代微调扩散模型沿温度梯度进行推理时间退火,但需计算分数场散度来估计重要性权重,对大系统不可行。本文提出可扩展推理时间退火(SITA),利用能量模型提供快速替代似然,重新训练基于流的模型逐步降低温度生成样本。在Alanine Dipeptide和Alanine Tripeptide上达到最先进性能,避免了昂贵的散度项。代码已开源。
受哈耶克市场去中心化协调理论启发,多智能体系统通过拍卖竞争行动权、交换支付并从环境奖励积累财富,经济信号实现去中心化信用分配,驱动无需全局协调的规划。种群通过经济选择演化:高效智能体积累财富并经历利用性变异,低效者破产后被探索性替代。初始为弱智能体的经济系统在数学推理、金融研究、科学研究、加速器设计、分布式系统优化五个任务上涌现多步推理策略,性能超越更强单一模型基线。理论分析揭示经济动力学如何将局部激励与长期全局性能关联。
FiRe-OPD(Filter, then Reweight)重新思考在线策略蒸馏的优化粒度,在轨迹和token两个层面联合调整监督信号。先过滤低质量轨迹,再对保留轨迹内的token进行软加权,避免硬选择带来的信息损失并提升优化稳定性。该方法在强到弱、单教师、多教师三种设置下均优于近期token级OPD方法:在AIME 2024上提升6.25分,在Miner上提升18.81分。代码已开源。
NVIDIA 发布 Cosmos 3 全模态世界模型家族,基于统一混合 Transformer 架构,联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架,在多项理解与生成任务上达到新 SOTA。技术报告撰写时,后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型,被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源(Linux Foundation OpenMDW-1.1 许可)。
关联讨论 9 条X:Kim (@kimmonismus)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务,但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位,从两个框架、三个模型和三个基准中收集2790条真实轨迹,经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT,追踪智能体主张并核对轨迹证据支持度。实验表明,DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。
WALL-WM 是一种世界动作模型,将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作(VLA)预训练。它把语义一致的动作事件作为基本学习单元,解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态,并从同一预训练主干支持两种推理模式:事件模式(变长执行块)和统一模式(使用 VLM 与阶梯解码)。依托 Muon 优化器的大规模预训练基础设施,WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。
多模态大语言模型作为评估者时,若视觉证据与文本线索冲突,模型倾向于奖励看似合理但感知错误的答案,即感知判断偏差。本文构建感知扰动评估数据集,通过最小编辑的反事实响应隔离感知错误并提供可验证监督;提出结合GRPO结构化奖励与批量排序目标的统一训练框架,无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。
AutoMedBench 是一个工作流感知的基准测试,用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务,组织智能体执行统一的五阶段工作流:规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道,每个任务设有Lite与Standard两个难度级别,单次运行平均包含33个智能体回合。结果表明,验证阶段是当前智能体最薄弱的环节,而设置阶段表现最强。错误分析显示,验证与提交失败分别占37.7%和38.1%,任务理解错误仅占0.9%;出现错误代码的运行总分平均比无错误运行低48%。
研究发现,对大语言模型进行单一领域(如数学、代码)的强化学习后训练,会对其他领域产生干扰,即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象:干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明,一次简短的领域刷新可以收缩该子空间中的有害分量,从而实现选择性恢复。实验表明,在经历代码→数学→问答→创作写作的序列训练后,进行Re-Math刷新可将数学性能恢复,同时基本保持其他领域表现。
本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口,并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图,融合自监督视觉编码器的几何与语义节点距离,并通过盲目匹配来定位语言目标,无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明,PlatonicNav在无需显式跨模态训练的情况下,实现了跨任务、跨模态和跨具身的泛化能力。
针对多模态大模型指令微调中的梯度干扰与高带宽同步瓶颈,MERIT提出了一种去中心化、可合并的微调流水线。该方法通过估计数据集间的梯度冲突,沿主成分分析(PCA)冲突轴进行切分,使各部分独立训练无需通信,最后通过基于token频率的加权平均进行一次权重合并。在Qwen2-VL-3B模型上使用136个Vision-FLAN任务评估,MERIT将8个基准测试的平均得分从联合训练的54.3提升至57.0。该流程同样可扩展至1.6M样本、176个来源的7B模型,以最小开销匹配或超越集中式联合训练。
ClawHub Security Signals数据集包含67,453个公开OpenClaw Agent技能版本,用于研究三个安全扫描器(VirusTotal、静态启发式分析与NVIDIA SkillSpector)的检测分歧。研究发现,三者极少标记相同技能:任意两者的正例重叠率最高仅10.4%,仅0.69%的技能被全部三者标记,81.9%的被标记技能仅被单个扫描器识别。NVIDIA SkillSpector主要在25,504个可疑样本中发出75.3%的警报,而VirusTotal则在206个恶意样本中标识出72.8%。结果表明,Agent技能安全需要分层治理,而非依赖单一扫描器的允许或阻止决策。该数据集作为包含自动裁决标签的银标准版本发布。
MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。
该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。
Anthropic的一项研究发现,在社会科学领域,通常男性名字的研究者使用AI编程智能体的频率,超过通常女性名字研究者的两倍。数据显示,经济学家中有39%使用编程智能体,而教育研究者中这一比例仅为4%。这一性别差距在编程智能体的使用上,远比在一般AI使用中更为显著。
哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。
DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。