该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。
该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。
PlanBench-XL是一个交互式基准测试,包含327个零售任务和1,665个工具,用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性,迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示,GPT-5.4在无阻塞条件下准确率为51.90%,最严重阻塞下骤降至11.36%。分析表明,当故障缺乏明确错误信号或恢复需要更长替代工具路径时,智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。
客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。
HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
Evoflux是一种推理时进化搜索方法,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平;ReAct可达更高峰值但方差和token成本更高。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更可靠。
当前多数智能体脚手架(scaffold)构建后保持静态。新研究Self-Harness将harness(提示词、工具、控制流)作为可学习的工件,通过自身运行迭代改进,而非手动维护的固定包装器。运行长周期智能体时,自我修改的harness将维护工作转化为系统自动获得的能力。论文:arxiv.org/abs/2606.09498。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。
ToolMaze是一个评估LLM智能体在工具失效场景下动态路径发现与错误恢复能力的基准测试。其采用双维度设计:DAG拓扑复杂度与2×2工具扰动分类(显式/隐式、瞬时/永久)。评估显示,几乎所有模型在扰动下性能均下降,隐式语义失效导致扰动恢复率(PRR)骤降约37%,复杂拓扑则使智能体陷入无效试错循环。关键发现:智能体容错能力随模型规模提升的速度比基本任务执行慢3.66倍,动态重规划成为模型扩展无法解决的独立瓶颈。数据和代码已公开。
多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。
MCP-Persona是首个专门评估LLM智能体在个性化MCP工具上表现的基准测试,涵盖Reddit、小红书、Lark和Slack等应用。在多个SOTA智能体上的实验表明,当前智能体在个性化工具使用方面仍面临重大挑战。该基准旨在弥合现有评估主要聚焦通用工具、忽视个人社交应用中工具与个人账户或本地数据库交互所带来的实际挑战这一空白。
论文整理了2023-2026年间21个编排框架中63起LLM智能体预算超支生产事故,构建8簇故障分类(Cohen's kappa=0.837,N=113),附加47个结构条目。开发了1,180行无unsafe的Rust crate token-budgets,通过仿射所有权模型使克隆、双重花费及委托后使用在编译期报错。单智能体下4行Python计数器表现相当(0/30超支);多智能体委托场景中Python asyncio模式30/30超支,Rust crate编译期拒绝相同模式。在5个运行时、3个提供商、160次温度分层实时API测试中,方案零预算违规且零误拒,静态过度预留4-6倍(自适应2.11倍)。二进制级别预算安全性暂未解决。
AuditFlow是图基多智能体框架,分离自适应搜索与确定性验证。从静态US-GAAP分类图和动态XBRL申报图构建符号环境,提供事实检索、分类遍历、数值检查和规则评估工具。两初级审计员从监管与证据视角检查案例,高级审计员解决分歧并请求进一步调查,最终证据聚合生成审计裁决、预期值、证据链和可信度分数。在FinAuditing衍生的FinMR样本上,使用GPT-5.5达82.09%联合审计准确率,比最强基线高14.93个百分点。移除确定性检查后准确率降至17.91%,表明符号环境执行了模型无法可靠替代的验证步骤。
HarnessForge提出元自适应框架,将LLM智能体系统形式化为框架-策略对,通过故障引导的框架定制和框架条件化的策略对齐实现协同进化。在五个跨领域基准上,基于Qwen3-4B和Qwen3-8B的HarnessForge相比仅优化框架或策略的基线最高提升12.0%,表明框架与推理策略的可执行兼容性对智能体系统自适应至关重要。代码已开源。
SkillHarm是一个覆盖AI智能体技能使用生命周期的攻击基准,配以系统化风险分类。它定义两种攻击场景:固定载荷投毒(FPP)和自我变异投毒(SMP),并基于受害工作流组件(数据管道、系统环境、自主性)划分12种风险类型。AutoSkillHarm管道由自然语言驱动编码智能体,生成71个技能、879个攻击样本。实验显示FPP成功率最高86.3%,SMP最高69.3%,许多表面失败实因智能体未触及恶意文件而非真正抵抗。
现有AI智能体的可复用技能多以纯文本形式存储,这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式,将声明式文本逻辑与显式视觉支持相结合,包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明,视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中,持续优于纯文本技能。
SkillAdaptor 是一种无需训练的步骤级技能自适应框架,能进行显式故障归因。它针对智能体失败的执行轨迹,识别首个可操作的故障步骤,并将责任归因于候选技能,随后在骨干模型冻结的前提下进行针对性更新与验证。在 WebShop、PinchBench 和 Claw-Eval 上使用 Kimi-K2.5、GLM-5 和 GPT-5.2 的评估表明,该框架在所有三项基准测试中均优于无技能和现有技能适应基线。
CoHyDE 是一种迭代训练框架,旨在解决大语言模型智能体在大型 API 目录中进行工具检索时面临的核心瓶颈。用户查询常使用口语化、描述不充分的自然语言,而 API 目录使用固定的技术性术语。该框架将稠密编码器与 LLM 重写器视为一个协同演化系统进行训练:编码器在重写器生成的、符合目录风格的假设性描述上通过 InfoNCE 进行重训练;重写器则通过 DPO 根据编码器的检索分数进行偏好对齐。在 ToolBench 目录约 10k 工具的子集上,三轮 CoHyDE 迭代后,其在标准查询上的 NDCG@5 得分较最强单组件基线提升 +2.5 pp,在模糊查询上提升 +6.3 pp。消融实验证实,协同训练是该方法在结构化与模糊查询上均取得优势的关键。
一篇新综述论文提出,自主AI智能体的真正瓶颈并非语言模型本身,而是工具、内存、测试与权限边界等构成的软件层。这一“约束层”将无状态模型转化为能行动的工作智能体。DeepSeek已在北京组建专门的Harness团队,其“模型加约束层等于AI智能体”的公式印证了该观点。
在本地智能体框架中,LLM智能体通过读写文件与复用状态增强了能力,但也面临多步木马攻击风险。攻击者可在文件或工具输出中嵌入提示词注入,智能体可能读取并执行这些隐藏指令。现有防御因检查步骤孤立,难以检测早期植入的后门。ClawTrojan基准测试在GPT-5.4模拟环境中实现了95.5%的攻击成功率。为此提出的DASGuard方案,通过扫描敏感文件中的控制文本、追溯其来源并移除非可信内容,实现了动态防御。
现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准,而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例,并收集了30个开源技能进行对比评估。研究发现,技能可用并不等同于有效使用,其增益高度依赖具体模型与智能体框架,许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。 (https://yingjiahao14.github.io/OpenSkillEval-Web/)
MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。
当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。
AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略,动态组合冻结的专家模型与双层技能库,实现步骤级的实时决策:何时调用专家、选择何种模型-技能组合,以及何时终止。在十个代表性多模态基准测试中,仅4B参数的Maestro平均准确率达70.1%,超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能,无需重新训练;在扩展外部专家后,仍显著优于闭源基线,同时保持高效率和低延迟。代码已开源。
自主智能体正从工具演变为社会基础设施的一部分,其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol(FP),一种图优先的协调层,用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体,支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议,支持渐进式采用,在保持智能体可组合性的同时,确保问责制的不可妥协性。
语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期(经验生成、技能提取与技能运用),构建了涵盖五个多样化任务领域的效用评估框架。研究发现,模型生成的技能平均有益,但存在显著的负面迁移现象;技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能,用于指导技能提取过程,以提升技能质量并减少负面迁移。
针对工业智能体在基准测试AssetOpsBench中,现有缓存技术因无法处理时间等动态参数而失效的问题,本研究提出了两种互补优化方案:时间语义缓存与MCP工作流优化。测试显示,MCP工作流优化(结合磁盘工具发现缓存与依赖感知并行执行)实现了1.67倍加速,将端到端延迟降低约40%;而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率,还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。
Mem-π是一个用于大型语言模型代理的自适应记忆框架,它通过专门的模型按需生成指导内容,而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法,使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中,Mem-π性能持续优于检索式方法和现有强化学习记忆方案,其中在网页导航任务上实现了超过30%的相对提升。
推文聚焦于一篇探讨AI代理(Agent)开发框架的百页报告,其核心主张是“代码作为代理框架”具有重要潜力。报告总结了相关方法与应用,并论证该路径可能推动更广泛的科学框架工程。论文进一步提出,未来的智能系统必须具备四项关键特性:可执行、可检查、有状态以及受控。报告旨在为构建有效AI代理提供参考,并推荐相关学习资源。
近期研究表明,在新兴智能体系统中,代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角,系统梳理了支撑智能体系统的三个核心层次:连接智能体与外部世界的操作接口层;支撑长期执行的规划、记忆与反馈控制机制层;以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域,并指出了评估验证、状态一致性等工程挑战,为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。
EnvFactory 是一个全自动框架,旨在解决大语言模型在智能体强化学习中工具使用能力的瓶颈,即缺乏可扩展、健壮的执行环境和能捕捉隐式推理逻辑的高质量训练数据。该框架能自主探索并验证来自真实资源的有状态可执行环境,并通过拓扑感知采样与校准精炼合成自然的多轮交互轨迹,生成蕴含隐式意图的查询。仅利用7个领域中的85个验证环境,EnvFactory 生成了2,575条SFT和RL轨迹,相比传统方法环境减少五倍,却实现了更优的训练效率与下游性能,在BFCLv3、MCP-Atlas及τ²-Bench等基准上将Qwen3系列模型性能最高提升15%、8.6%和6%,为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。