ginobefun@hongming731

2026-05-28 16:47·35天前

AI 摘要

腾讯指出，智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”：将详细内容存至外部，上下文仅保留索引；并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示，该方案在网页搜索任务中最高节省约61% Token，代码修复任务节省31%-33% Token且完成率提升，复杂任务通过率从20%提升至30%-35%。消融实验证明，结合任务画布的结构化压缩效果更优。

腾讯这篇文章讨论的是一个很现实的问题：Agent 做长任务时，越来越容易被自己的上下文拖垮。

我们平时让 Agent 搜索资料、读文件、改代码、跑测试、写报告，看起来每一步都很正常。但这些过程会不断产生大量中间信息：网页正文、搜索结果、工具返回、日志、代码片段、报错信息、旧版本方案。任务一长，这些内容就会不断堆进上下文里。

问题就来了。

上下文越来越长，Token 成本会越来越高；更麻烦的是，Agent 会被旧信息干扰。它可能忘记最初目标，重复搜索已经查过的资料，混淆不同子任务，或者被前面已经无关的日志带偏。也就是说，信息并没有丢，但它被堆得太乱，Agent 反而找不到重点。

所以文章要解决的核心问题是：

怎样让 Agent 在长任务里少背负冗余信息，同时还能记得任务进展，并在需要时找回原始证据。

作者提出的方案，可以概括为一句话：

短期记忆压缩 = 上下文卸载 + Mermaid 任务画布。

先说「上下文卸载」。

它的思路很简单：不是所有信息都要一直放在模型眼前。完整网页、完整日志、完整工具结果，可以先存到外部文件系统里。上下文里只保留一条摘要、一个路径、一个索引。等 Agent 真需要细节时，再通过路径把原文找回来。

这有点像我们写报告时，不会把所有参考资料都摊在桌面上，而是把资料放进文件夹，桌上只放目录和关键摘录。这样桌面变清爽了，但资料并没有丢。

不过，只把信息搬出去还不够。因为如果留下来的只是很多条摘要，比如「搜索了港大学费」「搜索了港中文学费」「生成了对比表」，这些摘要虽然短了，但还是一串线性日志。Agent 仍然不容易判断：哪些步骤是并行的，哪些信息互相依赖，当前任务到底走到了哪里。

所以文章又引入了第二个东西：Mermaid 任务画布。

Mermaid 是一种用文本描述图的格式，模型能读，工程上也能渲染成图。作者用它把 Agent 的执行过程整理成一张任务地图。每个节点表示一个子任务，节点里有状态、摘要和时间戳，节点之间用箭头表示依赖关系。

这样 Agent 看到的就不再是一长串历史记录，而是一张结构化地图：

哪些步骤已经完成；哪些节点还在进行；哪些信息汇聚成了当前结论；下一步应该从哪里继续；如果需要细节，应该去哪个文件里找。

这就是文章里说的「无限画布」。它不是让上下文窗口真的无限变大，而是让上下文之外的信息仍然可见、可定位、可恢复。

这套方案还有一个很重要的设计：分层记忆。

最底层是完整原文，保存在外部文件里；上一层是工具调用摘要，记录每次调用做了什么，原文在哪里；再上一层是 Mermaid 节点，记录任务步骤和阶段性结论；最上层是任务元信息，只保留任务目标、状态和画布路径。

Agent 使用时，可以先看最轻的任务索引，再打开相关画布；如果画布摘要不够，再查工具摘要；如果还不够，最后才读取完整原文。

这就避免了两个极端：一种是所有东西都塞进上下文，导致越来越乱；另一种是粗暴总结，把细节压没了，后面需要时又找不回来。

实验结果也比较直接。这个方案在多个长任务评测里都降低了 Token 消耗，同时任务效果没有下降，很多场景还提升了。网页搜索任务中，最高节省约 61% Token；代码修复任务中，节省约 31% 到 33% Token，完成率也有所提升；复杂长任务里，通过率从 20% 提升到 30% 到 35%。

更关键的是，消融实验显示：只做上下文卸载有帮助，但效果有限；加入 Mermaid 任务画布后，Token 节省和任务完成率都会进一步提升。说明真正有效的压缩，不能只压缩内容，还要保留结构。

ginobefun@hongming731 · X

69导出 Markdown