智能体工程化正在从两端同时收紧。一端是 Anthropic:用 Claude Managed Agents 把推理与执行彻底解耦,靠可恢复的事件日志和独立 Vault 撑起企业级落地,首字延迟中位数已经大幅下降,Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师:用三层加载架构、dispatcher 状态机和 G1-G8 门禁,治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病,给出了一套「用结构约束 AI,而不是用更多字约束 AI」的可复用模式。再往远看,Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势:模型正在把外层脚手架一口口吃掉--路由、执行环境这类原本要靠工程团队搭的能力,正逐渐被基础模型自己吸收,留给独立创业公司的窗口正在变窄。
精讲一:智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude
背景:从「一问一答」到「全程托管」
2023 年 Anthropic 开放 Claude API 的时候,接口设计非常朴素:token 进、token 出,一次请求对应一次模型轮次,剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作,但很快就不够用了--用户希望 Claude 能把一个任务从头跟到尾:去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么,而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。
要把 Claude 变成这样的智能体,开发者过去必须自己搭一套循环:问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness(智能体执行框架),随后开放成 Claude Agent SDK,让开发者可以在同一套机器之上构建自己的智能体,而不必维护一套自研循环。
关键事实:把「大脑」和「双手」彻底拆开
即便有了 SDK,把智能体真正推向生产环境依然困难重重:智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择--智能体的 harness 和它操作的文件系统跑在同一个容器里:容器要先启动才能让 Claude 开始思考(付出启动成本),代码执行紧贴着凭证,容器一旦挂掉整次运行就跟着没了。
Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开,中间用一份可追加的事件日志(session)连接两端--记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理,沙箱本身离凭证很远,而整次运行随时都可以从事件日志中重建出来。围绕这套架构,Managed Agents 由三类资源组成:agent(模型 + 提示词 + 工具 + 护栏的配置)、environment(沙箱容器、网络规则和预装包,可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上)、session(每次运行,把一个 agent 和一个 environment 配对,拥有自己独立的沙箱实例)。
智能体工程化正在从两端同时收紧。一端是 Anthropic:用 Claude Managed Agents 把推理与执行彻底解耦,靠可恢复的事件日志和独立 Vault 撑起企业级落地,首字延迟中位数已经大幅下降,Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师:用三层加载架构、dispatcher 状态机和 G1-G8 门禁,治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病,给出了一套「用结构约束 AI,而不是用更多字约束 AI」的可复用模式。再往远看,Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势:模型正在把外层脚手架一口口吃掉--路由、执行环境这类原本要靠工程团队搭的能力,正逐渐被基础模型自己吸收,留给独立创业公司的窗口正在变窄。
这篇文章最值得关注的一点,是它把「智能体工程」里最耗时的部分--安全、状态管理、权限、harness 调优--明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化,智能体就会出问题:在 Claude Sonnet 4.5 上,模型会在上下文快用完时匆忙收尾、提前打住工作,团队为此专门给 harness 加了「上下文重置」机制;但到了 Claude Opus 4.5,这个行为消失了,之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」,与其反复自己调,不如把这部分托管出去,把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。
一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑:一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题--先写单测、部署前评审、提交前合并主分支,所有规矩都往里堆。这套做法管用了三天,然后问题以更严重的形式回来了:规则多到把上下文「撑爆」,模型读完所有规则之后已经没有「脑容量」去读代码,于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断:对付 AI 的不确定性,堆 prompt 是负债,搭框架(harness)才是资产。
这篇文章给出的核心论点,是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」--模型已经足够聪明,但不稳定,而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断:Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布,中部信息准确率显著下降;另一项研究(arxiv 2605.29682)发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R2=0.33~0.42,而验证反馈质量能达到 R2=0.94~0.99--也就是说,决定 AI 干活靠不靠谱的不是「给它多少预算」,而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委:宁要可复现的「粗糙分」,不要会漂移的「精准分」。
在 Sequoia Capital 主持的这场访谈中,Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线,Gemini API 的出现提供了一层共享的基础智能层,而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合--这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力,把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。
关键事实:Gemini 3.5 Flash 的提升全部来自后训练,模型在「吃」周边脚手架
Logan 特别提到,智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时,他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益--这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时,Google 内部的深度「自用」(dogfooding)也大幅压缩了产品迭代周期,让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。
更值得关注的是「世界模型」架构的演进--以 Omni 这样的系统为代表,行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」,能够同时解释多模态序列,并在编辑操作中展现出对场景的整体理解:调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是:应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施--曾经作为外部平台脚手架搭建的工程能力(比如路由机制、执行环境封装),正逐渐被上移并整合进模型自身的核心逻辑中。
这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象:尽管 AI 编程能力的进步速度和落地速度都远超其他行业,软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层--决策(decide)、执行(execute)、交付(deliver),AI 主要压缩的是中间的「执行」层,但两端的「决策」和「交付」(包括对结果负责)依然高度依赖人类判断,不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究(SWE-chat),数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队,本文是系列文章的第一篇,后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文:BestBlogs。
Peter Girnus(@gothburz)分享了一段来自某 CFO 的「自白」,揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑:花在人身上的每一块钱是当期费用(expense),会直接拉低利润率、受到市场审视;而花在 GPU 上的每一块钱则可以记为资本资产(capital asset),不会以同样的方式冲击利润表,也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下,会优先把预算投向算力而不是涨薪--这并非单纯的技术判断,而是财务报表结构带来的激励扭曲,也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文:BestBlogs。
"无招" 没变,但 AI 改变了公司和人才的权力关系
晚点 LatePost 以钉钉 CEO 陈航(花名"无招")因高压管理风格被阿里合伙人委员会直接换掉为切入点,分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名,曾要求团队早 9 点打卡、深夜巡楼查岗,甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议,但阿里内部一直没有针对性动作;这一次,一篇 7.5 万字的员工离职长文迅速传播后,阿里合伙人委员会在 6 天内罕见回应,直指钉钉的管理方式"不是阿里文化该有的样子",不到 24 小时后陈航卸任 CEO。文章借此事件展开,探讨为什么在 AI 重塑生产力的当下,顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文:BestBlogs。
精讲一:智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude
背景:从「一问一答」到「全程托管」
2023 年 Anthropic 开放 Claude API 的时候,接口设计非常朴素:token 进、token 出,一次请求对应一次模型轮次,剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作,但很快就不够用了--用户希望 Claude 能把一个任务从头跟到尾:去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么,而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。
要把 Claude 变成这样的智能体,开发者过去必须自己搭一套循环:问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness(智能体执行框架),随后开放成 Claude Agent SDK,让开发者可以在同一套机器之上构建自己的智能体,而不必维护一套自研循环。
关键事实:把「大脑」和「双手」彻底拆开
即便有了 SDK,把智能体真正推向生产环境依然困难重重:智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择--智能体的 harness 和它操作的文件系统跑在同一个容器里:容器要先启动才能让 Claude 开始思考(付出启动成本),代码执行紧贴着凭证,容器一旦挂掉整次运行就跟着没了。
Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开,中间用一份可追加的事件日志(session)连接两端--记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理,沙箱本身离凭证很远,而整次运行随时都可以从事件日志中重建出来。围绕这套架构,Managed Agents 由三类资源组成:agent(模型 + 提示词 + 工具 + 护栏的配置)、environment(沙箱容器、网络规则和预装包,可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上)、session(每次运行,把一个 agent 和一个 environment 配对,拥有自己独立的沙箱实例)。
这篇文章最值得关注的一点,是它把「智能体工程」里最耗时的部分--安全、状态管理、权限、harness 调优--明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化,智能体就会出问题:在 Claude Sonnet 4.5 上,模型会在上下文快用完时匆忙收尾、提前打住工作,团队为此专门给 harness 加了「上下文重置」机制;但到了 Claude Opus 4.5,这个行为消失了,之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」,与其反复自己调,不如把这部分托管出去,把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。
一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑:一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题--先写单测、部署前评审、提交前合并主分支,所有规矩都往里堆。这套做法管用了三天,然后问题以更严重的形式回来了:规则多到把上下文「撑爆」,模型读完所有规则之后已经没有「脑容量」去读代码,于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断:对付 AI 的不确定性,堆 prompt 是负债,搭框架(harness)才是资产。
这篇文章给出的核心论点,是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」--模型已经足够聪明,但不稳定,而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断:Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布,中部信息准确率显著下降;另一项研究(arxiv 2605.29682)发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R2=0.33~0.42,而验证反馈质量能达到 R2=0.94~0.99--也就是说,决定 AI 干活靠不靠谱的不是「给它多少预算」,而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委:宁要可复现的「粗糙分」,不要会漂移的「精准分」。
在 Sequoia Capital 主持的这场访谈中,Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线,Gemini API 的出现提供了一层共享的基础智能层,而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合--这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力,把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。
关键事实:Gemini 3.5 Flash 的提升全部来自后训练,模型在「吃」周边脚手架
Logan 特别提到,智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时,他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益--这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时,Google 内部的深度「自用」(dogfooding)也大幅压缩了产品迭代周期,让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。
更值得关注的是「世界模型」架构的演进--以 Omni 这样的系统为代表,行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」,能够同时解释多模态序列,并在编辑操作中展现出对场景的整体理解:调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是:应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施--曾经作为外部平台脚手架搭建的工程能力(比如路由机制、执行环境封装),正逐渐被上移并整合进模型自身的核心逻辑中。
这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象:尽管 AI 编程能力的进步速度和落地速度都远超其他行业,软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层--决策(decide)、执行(execute)、交付(deliver),AI 主要压缩的是中间的「执行」层,但两端的「决策」和「交付」(包括对结果负责)依然高度依赖人类判断,不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究(SWE-chat),数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队,本文是系列文章的第一篇,后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文:BestBlogs。
Peter Girnus(@gothburz)分享了一段来自某 CFO 的「自白」,揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑:花在人身上的每一块钱是当期费用(expense),会直接拉低利润率、受到市场审视;而花在 GPU 上的每一块钱则可以记为资本资产(capital asset),不会以同样的方式冲击利润表,也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下,会优先把预算投向算力而不是涨薪--这并非单纯的技术判断,而是财务报表结构带来的激励扭曲,也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文:BestBlogs。
"无招" 没变,但 AI 改变了公司和人才的权力关系
晚点 LatePost 以钉钉 CEO 陈航(花名"无招")因高压管理风格被阿里合伙人委员会直接换掉为切入点,分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名,曾要求团队早 9 点打卡、深夜巡楼查岗,甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议,但阿里内部一直没有针对性动作;这一次,一篇 7.5 万字的员工离职长文迅速传播后,阿里合伙人委员会在 6 天内罕见回应,直指钉钉的管理方式"不是阿里文化该有的样子",不到 24 小时后陈航卸任 CEO。文章借此事件展开,探讨为什么在 AI 重塑生产力的当下,顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文:BestBlogs。