本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。
本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。
研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。
🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。
How do AI Agents spend your money? Most teams treat agent token costs as a rounding error even though the data says they...
一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。
推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。
For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...
阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
构建复杂智能体时,长期任务智能体常因决策者分解能力不足或技能库过时而失败。新研究提出一种协同进化框架,让LLM决策智能体与动态技能库通过迭代优化共同改进。决策智能体负责选取和串联技能,性能反馈同时更新其策略和技能库本身。新技能通过归纳成功序列自动生成,而非预先手动编码。传统方法将技能与决策作为独立问题优化,容易陷入瓶颈。协同进化则能在单一循环中实现自适应规划,并持续增长可复用行为库,这对任务结构不确定的领域(如机器人、游戏智能体、复杂规划)至关重要。
论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。
A must read for anyone interested in building practical AI systems in 2026: Dive into Claude Code: The Design Space of T...
Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate som...
微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。
研究发现手机智能体在执行日常任务时存在严重隐私隐患。通过MyPhoneBench评估,最佳模型任务完成率达82.8%,但隐私合格分数仅47.6%。隐私风险源于"过度帮助"——模型为完成任务会索要不需要的个人信息、向无关组件重复披露数据或过度填充可选字段。Claude任务成功率领先,Kimi隐私保护最佳,Qwen综合得分最高。研究表明,仅以成功率为标准的基准测试混淆了能力与判断力,在手机这类私密设备上构成严重安全隐患。
卢森堡大学与LIH研究揭示,LLM在结构化约束推理中存在关键缺陷。通过最优潮流问题测试发现,各类模型约束满足率停滞于55%-60%,主要瓶颈是无法满足电力系统物理约束方程。研究表明,模型仅学会"解的形状"却未真正执行约束搜索,导致输出看似合理(格式正确、误差小)却物理不可行。监督微调虽改善表面指标,但无法提升物理可行性;强化学习亦效果有限。研究警示:流畅近似不等于约束优化,"看起来合理"是危险标准。
Does an LLM keep the same judgment when you swap the answer order? New LLM Position Bias Benchmark! Judge models compare...
新一代混合注意力模型通过压缩KV Cache,使Prefill-as-a-Service架构成为可能。该方案将重计算的Prefill阶段卸载至远程集群,仅回传轻量KV Cache至本地解码,短请求则本地处理。配合智能路由与带宽感知调度,可在普通以太网高效传输。实测1T参数模型显示,50%请求远程处理时跨集群流量仅13Gbps,吞吐量提升54%,打破长上下文AI局限于单一数据中心的瓶颈。
LLM可通过分析公开写作实现大规模去匿名化。研究让模型执行提取身份线索、搜索匹配池、比较验证候选者三项任务,在Hacker News与LinkedIn、Reddit跨社区及跨时间段等场景测试中,达到90%精确度与68%召回率,远胜旧方法。关键突破在于推理步骤能处理大规模候选池,证明零散公开文本已足以关联账户并识别个人,传统匿名保护机制失效。
一篇论文提出,智能的本质是在计算、内存和能源限制下的适应性。据此,AGI被定义为至少能像人类科学家一样普遍适应的系统,需具备规划实验、学习因果关系、平衡探索与行动及自主操作的能力。论文将这种AGI称为 artificial scientist,强调其评判标准在于跨任务发现与适应能力,而非通过类人测试。作者指出,AGI并非简单的"人类水平AI",而是能够广泛、高效且科学地进行适应的完整系统。