7月2日

10:05

Rohan Paul@rohanpaul_ai

MCP Server架构模式论文：LLM集成应用工具设计需遵循5种模式、避免4类错误

该论文指出，MCP服务器设计不同于普通API，因为LLM通过纯语言描述选择工具，过多或模糊的工具会导致混淆。作者归纳了5种实际模式（如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API），并警告4个常见错误（大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID）。在54个额外服务器上测试发现，弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

arXiv MCP/工具论文/研究部署/工程

7月1日

06:05

elvis@omarsar0

MCP服务器五大模式论文发布

Elvis Saravia（DAIR.AI）推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器，归纳出5种常见模式：暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向，避免重复造轮。论文地址：https://arxiv.org/abs/2606.30317。

MCP/工具论文/研究

6月26日

20:26

AK@_akhaliq

面向鲁棒视频理解的自信感知工具编排

MCP/工具多模态论文/研究

6月22日

22:37

elvis@omarsar0

多智能体通信协议五维分类法报告发布

该报告针对LLM多智能体系统的通信瓶颈，构建了五维分类法（对方、有效载荷、交互状态、发现机制、模式灵活性），系统梳理了9个积极维护的开源智能体协议，覆盖MCP和A2A的实际格局。报告发现两个突出模式：每个智能体间协议都采用混合有效载荷与会话状态持久化组合，而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话，但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。

智能体 arXiv MCP/工具论文/研究

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

6月20日

03:02

HuggingFace Daily Papers（社区热门论文）

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。