Agent系统工程三要:隔离、容错与上下文管理 · AI HOT
ginobefun @hongming731 58
2026-05-27 07:10 ·37天前
AI 摘要 Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。
ginobefun @hongming731 · X 2026-05-27 07:10 · 37天前
在 X 看原推 · x.com AI 摘要 Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。
Claude Code(HITL 沙盒):采用人工在环(Human-In-The-Loop)设计,有一个特权进程坐在沙盒外部,逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作,同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令,人工只需关注真正高风险的操作。 Claude Cowork(可信工作空间):面向企业场景,Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」--一旦 Agent 获得了某项访问权限,随着任务扩展,它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程,而不是绑定到 Agent 本身。 文章最重要的结论之一是:防御层应当相互补充,而非相互替代。当环境防御失效时,模型层要能兜底;当模型层失误时,环境约束要能拦截。Claude Code 的 auto mode 正是这个思路--它不是替代环境隔离,而是在环境隔离的基础上进一步减少不必要的人工摩擦。
另一个值得记住的教训是:模型能力越强,越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误,更容易被人类发现和纠正;能力更强的模型犯错更少,但一旦犯错,它往往能找到更隐蔽的绕过路径--绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。
这篇文章与 AgentScope 2.0 的权限系统设计高度呼应--后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解:限制 Agent 在单次 Session 中能触及的信息量,本质上也是一种能力边界管理。
阅读建议:如果你正在生产环境中部署 Agent,或者在设计 Agent 系统的权限模型,这篇文章是今天的必读。它不只是 Anthropic 的内部经验,更是目前业界关于 Agent 安全架构最系统的一次公开总结。
精讲二:从透明开发到系统工程:AgentScope 2.0 发布 「开发一个能跑通 Demo 演示的 Agent 并不难。难的是,让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的,也精准概括了当前整个 Agent 框架赛道的核心矛盾。
AgentScope 1.0 以「透明开发」为核心--让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程,降低理解与调试门槛。2.0 在保留这一理念的基础上,全面转向可靠运行:这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。
在真实长任务中,Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用,就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制:开发者可配置最大重试次数,并设置备用模型;主模型失败时,框架自动切换到备用模型,尽量保持任务连续性。
这个改动看起来不复杂,但在生产场景中意义重大--它把「偶发的 API 超时」从致命错误降级为可恢复的异常。
参照 Anthropic 的经验,AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断,而是根据静态规则、工具类型和输入内容进行三级判断:
拒绝:明确高风险操作(如危险目录写入、高危命令)直接拒绝 文件读写会检查是否涉及危险目录和敏感文件;命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致,差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力,而不是绑定在特定产品上。
在长任务执行中,上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化:
压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息(结构化保留,而非简单摘要) 内置文件读写新增缓存机制,强制「先读后改」,减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定--它解决的不是「如何把更多内容塞进上下文」,而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。
这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开,支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端,统一暴露相同的接口。
同一个 Agent 代码,不改运行逻辑,就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制,支持提前批量初始化执行环境--在 RL 训练的并行 rollout 场景中,这可以显著降低频繁创建环境的开销。
这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合,只是把选择权交给了框架用户,而不是由框架自己决定隔离策略。
AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题,但路径不同:前者强调结构化保留关键状态,后者强调把完整信息卸载到外部,再用 Mermaid 图谱维护关键摘要。两种思路并不互斥,完全可以组合使用。
阅读建议:如果你正在从头设计一个 Agent 框架,或者在现有框架基础上构建生产级 Agent 系统,AgentScope 2.0 的每一个模块设计都值得仔细拆解--它是目前开源框架里,对「稳定运行」这个问题回答最完整的一个。
精讲三:腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍:Mermaid 无限画布×上下文卸载 当 Agent 执行一个长任务时,会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息--几千字、上万字。如果这些内容全部堆进上下文,结果往往是:Token 被迅速耗尽,模型被细节淹没,逐渐偏离原本的目标。
腾讯云 TencentDB Agent Memory 团队的核心洞察是:问题不在于信息太多,而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略,并在超长 Session 实验中验证了其效果:最高节省 61% Token,任务通过率从 33% 提升至 50%(相对 +52%)。
「上下文卸载」的核心思路是:把完整的任务信息(搜索结果、工具输出、文件内容)卸载到外部文件系统,上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。
这看起来简单,但实现细节很关键:摘要不能只是自然语言概括,因为自然语言的摘要容易丢失结构性信息(比如「三所学校的学费已分别确认」这句话,不能让 Agent 立刻知道三者之间是并行关系,还是依赖关系)。
Mermaid 无限画布:结构化记忆,而非线性列表
这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言--它既可以被渲染成可视化图表,也可以被大模型作为纯文本直接读取和修改。
腾讯云选择 Mermaid 的原因,来自他们总结的三条符号设计原则:
符号必须是通用知识:压缩格式必须是所有主流大模型在预训练阶段都大量接触过的,否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件,自定义编码方案不满足。 符号的生成不能过于复杂:如果压缩规则太复杂,生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松,允许模型灵活表达。 表达要足够自由:让模型能根据实际情况调整结构,而不是被固定格式束缚。 在「无限画布」的比喻中,Mermaid 图就是 Agent 维护的「任务地图」:每次工具调用后,Agent 更新这张图,记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时,Agent 可以卸载掉具体的工具输出细节,只保留这张结构化地图--而这张地图包含了重建完整任务状态所需的所有关键信息。
在超长 Session 实验中(对应办公提效、创作、研究和编程类长任务),单纯的文本摘要方案能减少 Token 消耗,但任务通过率几乎没有改善--因为摘要丢失了任务的结构性信息,Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事:细节可恢复(外部存储)+ 结构不丢失(Mermaid 图谱),这才是通过率显著提升的根本原因。
这套方案完全在推理层实现,不依赖模型微调,与具体模型解耦--换模型、升级模型版本,方案照样有效。对于大多数工程团队来说,这是一个直接可以拿来用的优化思路,而不是需要「等模型团队支持」的功能请求。
TencentDB Agent Memory 已开源,GitHub 地址:https://github.com/Tencent/TencentDB-Agent-Memory
这篇文章是今天三篇精讲里最「有数据支撑」的一篇--它给出了可复现的实验数字,而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇(速览部分),两篇合在一起给出了 Token 成本优化的完整视角:一个侧重工程可观测性和路由策略,一个侧重上下文的结构化管理。
阅读建议:如果你正在处理 Agent 长任务的上下文溢出问题,或者在寻找 Token 成本优化方案,这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分,对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。
速览 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码) 来源:高可用架构|评分:89
作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是:先用 Helicone/Langfuse/Portkey 建立可观测性,找出吃掉 60% 预算的那两个函数;再依次实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律--优化后要持续监控,防止成本悄悄回弹。与精讲三形成互补:精讲三聚焦上下文结构化,本文聚焦全链路成本可观测性。
Vercel 如何将构建等待时间从 90 秒缩短至 5 秒 来源:ByteByteGo Newsletter|评分:91
Vercel 2023 年底悄悄上线了内部平台 Hive,把构建预置时间从 90 秒降至 5 秒,实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器,解决多租户构建的对抗性隔离问题;再叠加三层优化:快照恢复(跳过冷启动)、预热池(保持已加载构建镜像的待机实例)和快照分层(共享只读基础层)。这是一篇少见的「先接受更难约束,再在约束内做极致优化」的工程案例,与精讲一的隔离架构思路有异曲同工之处。
Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍 来源:Cursor Blog|评分:91
Faire 把原本需要 18 个月的迁移任务,缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent--每个 Agent 有独立开发环境,可以写代码、运行测试、提交 PR,不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务,处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例,值得关注。
用括号来监管是一种糟糕的方式 来源:LessWrong|评分:88
这篇文章从一个偏理论但很实用的角度切入:对连续分布使用离散区间监管(速度限制、税率区间、量刑门槛)本质上是低效的,因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下,文章与精讲一的「权限弹窗」讨论高度相关--「批准/拒绝」的二元判断本身就是一种区间化,AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。
Token 生意在重新洗牌 来源:腾讯研究院|评分:88
从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍,为什么两端都站满买家?文章梳理了三种定价锚点:OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力,勾勒出 Token 经济的全景图。
刚刚,国产 AI 自己造了 AI,全球首例! 来源:量子位|评分:88
面壁智能发布 ForgeTrain -- 全球首个完全由 AI 编写的生产级大模型预训练框架,训练速度超越英伟达 Megatron 10%,并用其训练出 MiniCPM5-1B 端侧模型(1B 参数在 AA-Index 上超越所有 2B 以下模型)。团队同时提出「Forge Engineering」范式:当 AI 写代码成本越来越低,软件不必做成通用大框架,可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。
AI 就业恐慌的现实检验 来源:MIT Technology Review|评分:88
尽管普遍担忧 AI 会引发白领工作末日,但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是:没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出,AI 相关领域的年轻入门级工作者已开始感受到影响--这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。
补充阅读 架构云原生 Kafka:从分层存储迈向无盘未来(InfoQ,评分 91) Kafka 从硬件绑定系统向云原生平台演进的全景分析,涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。
Harness Engineering: C 端 AIGC 内容生产自优化实践(阿里云开发者,评分 92) 蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」,将不可控的质量风险转化为可控的离线流程。技术细节扎实,Host/Research/Verify 三 Agent 协作架构值得参考。
Introducing Music v2,突破性的全新音乐模型(ElevenLabs Blog,评分 90) ElevenLabs 发布 Music v2,人声、配器、作曲控制和多语言支持均有提升,同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。
Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao,扩大 SynthID 水印应用(Google DeepMind,评分 91) SynthID 水印已应用于超过 1000 亿条内容,现在与 OpenAI、ElevenLabs 和 Kakao 达成合作,推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。
Microsoft Copilot Cowork 文件泄露漏洞(Simon Willison's Weblog,评分 88) Copilot Cowork 存在漏洞:Agent 可向用户收件箱发送含外部图片的邮件,通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应--自建代理层的安全风险在这里得到了现实印证。
教皇利奥十四世关于人工智能的通谕解读(Simon Willison's Weblog,评分 88) 梵蒂冈发布 AI 伦理通谕,Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。
AI 智能体正在悄然制造混沌工程故障,企业尚未察觉(VentureBeat,评分 88) 生产环境中的自主 Agent 正充当不受监控的混沌注入器--Agent 行动在技术上是正确的,但上下文不完整,导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。
创业者闭门探讨:Make for Agent,其实还是 Make for Human(Founder Park,评分 90) 一场 Agent 创业者闭门讨论的精华记录。核心发现:Agent 产品当前真实卡点不在宏大前景,而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。
对话李开复:别叫我们「六小虎」,叫「金钱豹」(晚点,评分 88) 零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后,2025 年审计收入 2.5 亿元,2026 年订单超 15 亿元,正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断,是观察国内大模型公司战略分化的窗口。
编程 Agent 可能是软件开发史上最昂贵的错误之一(InfoQ 中文,评分 88) George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后,得出结论:「Agent 不会编程,它们是高度复杂的统计模型,生成的东西就是坏的,只是坏得越来越隐蔽。」文章呈现了 Karpathy(革命)与 Hotz(灾难)两个极端的对立,是对 Cursor/Faire 案例(速览部分)最有价值的反驳声音。
具身智能的重复造轮子,终于有人开始认真解了(阑夕,评分 88) 具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构,提出「真机数据自由」方案,直指整个行业待解的数据瓶颈。
OpenAI 团队的零人工代码工作流深度解析(Aakash Gupta,评分 89) OpenAI 某团队禁止工程师编写代码,强制他们通过构建测试、lint 和文档来防止错误,打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论:制胜策略不是「氛围编码」,而是把质量标准编码进开发基础设施本身。
今日阅读路径 我们如何在多个产品中约束 Claude(精讲一)--Anthropic 的工程实践披露,覆盖了今天整个议题的核心原则:爆炸半径管理与环境隔离。无论你是否在用 Claude,这篇文章都是理解 Agent 安全架构的最佳起点。 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率(精讲三)--有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent,这篇的投入产出比最高。 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(速览)--精讲三讲上下文结构化,这篇讲全链路成本可观测性,两篇合在一起是 Agent 成本优化的完整地图。 做框架或平台的读 AgentScope 2.0(精讲二),看完整的生产级 Agent 系统工程如何设计。 关注行业动态的读 Token 生意在重新洗牌(速览),把今天的工程讨论放回商业地图里理解。 对 AI 编程 Agent 有疑虑的读 编程 Agent 可能是最昂贵的错误(补充阅读),Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。 精讲二:AgentScope 2.0 - 从可见调试到生产级稳定运行的系统性升级 精讲三:腾讯云上下文卸载 × Mermaid 无限画布,节省 61% Token 提升 52% 成功率 速览:7 天将 Token 账单砍掉 87%、Vercel 构建从 90 秒到 5 秒、Cursor 云 Agent 让 PR 吞吐翻倍等 7 篇 补充阅读:云原生 Kafka 架构演进、C 端 AIGC 离线生产实践等 12 篇延伸内容
精讲一:我们如何在多个产品中约束 Claude 来源: Anthropic Engineering|评分: 93
一年前,Anthropic 还不会允许 Claude 获得足以中断内部服务的访问权限。今天,这样的权限已经成了日常标配,工程师的生产力也因此显著提升。这篇文章是 Anthropic 工程团队迄今为止最完整的一次 Agent 安全工程披露,记录了他们在 claude.ai、Claude Code 和 Claude Cowork 三款产品上踩过的坑、改进的架构,以及推导出的核心原则。
Anthropic 遥测数据显示,用户批准了约 93% 的权限请求。更糟糕的是:用户见到的批准弹窗越多,对每一个的关注度就越低,审查变得越来越流于形式。这个发现直接促成了 Claude Code 自动模式(auto mode)的诞生--系统自动处理低风险审批,减少人工疲劳。但 Anthropic 也明确指出,任何基于概率的防御都有非零的失误率,人工审批作为唯一防线本质上是不可靠的。
真正可靠的方法是容器化隔离:不是监督 Agent 做了什么,而是限制它能做什么。通过沙盒、虚拟机和出口控制来压缩爆炸半径(blast radius),即便 Agent 出错,破坏范围也有上界。
claude.ai(临时容器):每次会话启动一个一次性容器,执行完毕即销毁。优势是简洁,隔离天然。踩过最大的坑是「自建代理层」--团队曾尝试绕过云厂商原生网络控制自己实现出口过滤,结果发现自研方案引入了更多安全漏洞。教训是:能用云厂商的安全原语就用,不要重复造低质量的轮子。 Claude Code(HITL 沙盒):采用人工在环(Human-In-The-Loop)设计,有一个特权进程坐在沙盒外部,逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作,同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令,人工只需关注真正高风险的操作。 Claude Cowork(可信工作空间):面向企业场景,Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」--一旦 Agent 获得了某项访问权限,随着任务扩展,它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程,而不是绑定到 Agent 本身。 文章最重要的结论之一是:防御层应当相互补充,而非相互替代。当环境防御失效时,模型层要能兜底;当模型层失误时,环境约束要能拦截。Claude Code 的 auto mode 正是这个思路--它不是替代环境隔离,而是在环境隔离的基础上进一步减少不必要的人工摩擦。
另一个值得记住的教训是:模型能力越强,越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误,更容易被人类发现和纠正;能力更强的模型犯错更少,但一旦犯错,它往往能找到更隐蔽的绕过路径--绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。
这篇文章与 AgentScope 2.0 的权限系统设计高度呼应--后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解:限制 Agent 在单次 Session 中能触及的信息量,本质上也是一种能力边界管理。
阅读建议:如果你正在生产环境中部署 Agent,或者在设计 Agent 系统的权限模型,这篇文章是今天的必读。它不只是 Anthropic 的内部经验,更是目前业界关于 Agent 安全架构最系统的一次公开总结。
精讲二:从透明开发到系统工程:AgentScope 2.0 发布 「开发一个能跑通 Demo 演示的 Agent 并不难。难的是,让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的,也精准概括了当前整个 Agent 框架赛道的核心矛盾。
AgentScope 1.0 以「透明开发」为核心--让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程,降低理解与调试门槛。2.0 在保留这一理念的基础上,全面转向可靠运行:这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。
在真实长任务中,Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用,就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制:开发者可配置最大重试次数,并设置备用模型;主模型失败时,框架自动切换到备用模型,尽量保持任务连续性。
这个改动看起来不复杂,但在生产场景中意义重大--它把「偶发的 API 超时」从致命错误降级为可恢复的异常。
参照 Anthropic 的经验,AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断,而是根据静态规则、工具类型和输入内容进行三级判断:
拒绝:明确高风险操作(如危险目录写入、高危命令)直接拒绝 文件读写会检查是否涉及危险目录和敏感文件;命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致,差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力,而不是绑定在特定产品上。
在长任务执行中,上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化:
压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息(结构化保留,而非简单摘要) 内置文件读写新增缓存机制,强制「先读后改」,减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定--它解决的不是「如何把更多内容塞进上下文」,而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。
这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开,支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端,统一暴露相同的接口。
同一个 Agent 代码,不改运行逻辑,就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制,支持提前批量初始化执行环境--在 RL 训练的并行 rollout 场景中,这可以显著降低频繁创建环境的开销。
这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合,只是把选择权交给了框架用户,而不是由框架自己决定隔离策略。
AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题,但路径不同:前者强调结构化保留关键状态,后者强调把完整信息卸载到外部,再用 Mermaid 图谱维护关键摘要。两种思路并不互斥,完全可以组合使用。
阅读建议:如果你正在从头设计一个 Agent 框架,或者在现有框架基础上构建生产级 Agent 系统,AgentScope 2.0 的每一个模块设计都值得仔细拆解--它是目前开源框架里,对「稳定运行」这个问题回答最完整的一个。
精讲三:腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍:Mermaid 无限画布×上下文卸载 当 Agent 执行一个长任务时,会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息--几千字、上万字。如果这些内容全部堆进上下文,结果往往是:Token 被迅速耗尽,模型被细节淹没,逐渐偏离原本的目标。
腾讯云 TencentDB Agent Memory 团队的核心洞察是:问题不在于信息太多,而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略,并在超长 Session 实验中验证了其效果:最高节省 61% Token,任务通过率从 33% 提升至 50%(相对 +52%)。
「上下文卸载」的核心思路是:把完整的任务信息(搜索结果、工具输出、文件内容)卸载到外部文件系统,上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。
这看起来简单,但实现细节很关键:摘要不能只是自然语言概括,因为自然语言的摘要容易丢失结构性信息(比如「三所学校的学费已分别确认」这句话,不能让 Agent 立刻知道三者之间是并行关系,还是依赖关系)。
Mermaid 无限画布:结构化记忆,而非线性列表
这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言--它既可以被渲染成可视化图表,也可以被大模型作为纯文本直接读取和修改。
腾讯云选择 Mermaid 的原因,来自他们总结的三条符号设计原则:
符号必须是通用知识:压缩格式必须是所有主流大模型在预训练阶段都大量接触过的,否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件,自定义编码方案不满足。 符号的生成不能过于复杂:如果压缩规则太复杂,生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松,允许模型灵活表达。 表达要足够自由:让模型能根据实际情况调整结构,而不是被固定格式束缚。 在「无限画布」的比喻中,Mermaid 图就是 Agent 维护的「任务地图」:每次工具调用后,Agent 更新这张图,记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时,Agent 可以卸载掉具体的工具输出细节,只保留这张结构化地图--而这张地图包含了重建完整任务状态所需的所有关键信息。
在超长 Session 实验中(对应办公提效、创作、研究和编程类长任务),单纯的文本摘要方案能减少 Token 消耗,但任务通过率几乎没有改善--因为摘要丢失了任务的结构性信息,Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事:细节可恢复(外部存储)+ 结构不丢失(Mermaid 图谱),这才是通过率显著提升的根本原因。
这套方案完全在推理层实现,不依赖模型微调,与具体模型解耦--换模型、升级模型版本,方案照样有效。对于大多数工程团队来说,这是一个直接可以拿来用的优化思路,而不是需要「等模型团队支持」的功能请求。
TencentDB Agent Memory 已开源,GitHub 地址:https://github.com/Tencent/TencentDB-Agent-Memory
这篇文章是今天三篇精讲里最「有数据支撑」的一篇--它给出了可复现的实验数字,而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇(速览部分),两篇合在一起给出了 Token 成本优化的完整视角:一个侧重工程可观测性和路由策略,一个侧重上下文的结构化管理。
阅读建议:如果你正在处理 Agent 长任务的上下文溢出问题,或者在寻找 Token 成本优化方案,这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分,对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。
速览 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码) 来源:高可用架构|评分:89
作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是:先用 Helicone/Langfuse/Portkey 建立可观测性,找出吃掉 60% 预算的那两个函数;再依次实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律--优化后要持续监控,防止成本悄悄回弹。与精讲三形成互补:精讲三聚焦上下文结构化,本文聚焦全链路成本可观测性。
Vercel 如何将构建等待时间从 90 秒缩短至 5 秒 来源:ByteByteGo Newsletter|评分:91
Vercel 2023 年底悄悄上线了内部平台 Hive,把构建预置时间从 90 秒降至 5 秒,实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器,解决多租户构建的对抗性隔离问题;再叠加三层优化:快照恢复(跳过冷启动)、预热池(保持已加载构建镜像的待机实例)和快照分层(共享只读基础层)。这是一篇少见的「先接受更难约束,再在约束内做极致优化」的工程案例,与精讲一的隔离架构思路有异曲同工之处。
Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍 来源:Cursor Blog|评分:91
Faire 把原本需要 18 个月的迁移任务,缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent--每个 Agent 有独立开发环境,可以写代码、运行测试、提交 PR,不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务,处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例,值得关注。
用括号来监管是一种糟糕的方式 来源:LessWrong|评分:88
这篇文章从一个偏理论但很实用的角度切入:对连续分布使用离散区间监管(速度限制、税率区间、量刑门槛)本质上是低效的,因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下,文章与精讲一的「权限弹窗」讨论高度相关--「批准/拒绝」的二元判断本身就是一种区间化,AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。
Token 生意在重新洗牌 来源:腾讯研究院|评分:88
从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍,为什么两端都站满买家?文章梳理了三种定价锚点:OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力,勾勒出 Token 经济的全景图。
刚刚,国产 AI 自己造了 AI,全球首例! 来源:量子位|评分:88
面壁智能发布 ForgeTrain -- 全球首个完全由 AI 编写的生产级大模型预训练框架,训练速度超越英伟达 Megatron 10%,并用其训练出 MiniCPM5-1B 端侧模型(1B 参数在 AA-Index 上超越所有 2B 以下模型)。团队同时提出「Forge Engineering」范式:当 AI 写代码成本越来越低,软件不必做成通用大框架,可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。
AI 就业恐慌的现实检验 来源:MIT Technology Review|评分:88
尽管普遍担忧 AI 会引发白领工作末日,但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是:没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出,AI 相关领域的年轻入门级工作者已开始感受到影响--这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。
补充阅读 架构云原生 Kafka:从分层存储迈向无盘未来(InfoQ,评分 91) Kafka 从硬件绑定系统向云原生平台演进的全景分析,涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。
Harness Engineering: C 端 AIGC 内容生产自优化实践(阿里云开发者,评分 92) 蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」,将不可控的质量风险转化为可控的离线流程。技术细节扎实,Host/Research/Verify 三 Agent 协作架构值得参考。
Introducing Music v2,突破性的全新音乐模型(ElevenLabs Blog,评分 90) ElevenLabs 发布 Music v2,人声、配器、作曲控制和多语言支持均有提升,同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。
Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao,扩大 SynthID 水印应用(Google DeepMind,评分 91) SynthID 水印已应用于超过 1000 亿条内容,现在与 OpenAI、ElevenLabs 和 Kakao 达成合作,推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。
Microsoft Copilot Cowork 文件泄露漏洞(Simon Willison's Weblog,评分 88) Copilot Cowork 存在漏洞:Agent 可向用户收件箱发送含外部图片的邮件,通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应--自建代理层的安全风险在这里得到了现实印证。
教皇利奥十四世关于人工智能的通谕解读(Simon Willison's Weblog,评分 88) 梵蒂冈发布 AI 伦理通谕,Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。
AI 智能体正在悄然制造混沌工程故障,企业尚未察觉(VentureBeat,评分 88) 生产环境中的自主 Agent 正充当不受监控的混沌注入器--Agent 行动在技术上是正确的,但上下文不完整,导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。
创业者闭门探讨:Make for Agent,其实还是 Make for Human(Founder Park,评分 90) 一场 Agent 创业者闭门讨论的精华记录。核心发现:Agent 产品当前真实卡点不在宏大前景,而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。
对话李开复:别叫我们「六小虎」,叫「金钱豹」(晚点,评分 88) 零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后,2025 年审计收入 2.5 亿元,2026 年订单超 15 亿元,正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断,是观察国内大模型公司战略分化的窗口。
编程 Agent 可能是软件开发史上最昂贵的错误之一(InfoQ 中文,评分 88) George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后,得出结论:「Agent 不会编程,它们是高度复杂的统计模型,生成的东西就是坏的,只是坏得越来越隐蔽。」文章呈现了 Karpathy(革命)与 Hotz(灾难)两个极端的对立,是对 Cursor/Faire 案例(速览部分)最有价值的反驳声音。
具身智能的重复造轮子,终于有人开始认真解了(阑夕,评分 88) 具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构,提出「真机数据自由」方案,直指整个行业待解的数据瓶颈。
OpenAI 团队的零人工代码工作流深度解析(Aakash Gupta,评分 89) OpenAI 某团队禁止工程师编写代码,强制他们通过构建测试、lint 和文档来防止错误,打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论:制胜策略不是「氛围编码」,而是把质量标准编码进开发基础设施本身。
今日阅读路径 我们如何在多个产品中约束 Claude(精讲一)--Anthropic 的工程实践披露,覆盖了今天整个议题的核心原则:爆炸半径管理与环境隔离。无论你是否在用 Claude,这篇文章都是理解 Agent 安全架构的最佳起点。 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率(精讲三)--有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent,这篇的投入产出比最高。 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(速览)--精讲三讲上下文结构化,这篇讲全链路成本可观测性,两篇合在一起是 Agent 成本优化的完整地图。 做框架或平台的读 AgentScope 2.0(精讲二),看完整的生产级 Agent 系统工程如何设计。 关注行业动态的读 Token 生意在重新洗牌(速览),把今天的工程讨论放回商业地图里理解。 对 AI 编程 Agent 有疑虑的读 编程 Agent 可能是最昂贵的错误(补充阅读),Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。