# 智能体工程化三大方向：Anthropic托管Agents、阿里Harness实践、Sequoia脚手架被吞趋势

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-12 08:46
- AIHOT 分数：58
- AIHOT 链接：https://aihot.virxact.com/items/cmqa8waqk0j7fslld508pd9al
- 原文链接：https://x.com/hongming731/status/2065234149624152466

## AI 摘要

本期精讲聚焦智能体工程化：Anthropic推出Claude Managed Agents，将推理与执行解耦，独立Vault管理凭证，事件日志支持运行恢复，首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构（常驻入口层压至8K上下文）、dispatcher状态机及G1-G8门禁，用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架，独立创业公司窗口收窄。

## 正文

http://x.com/i/article/2065232915970371585

# BestBlogs 早报 · 06-12|智能体解耦、Harness 工程化、脚手架被吞

在线阅读本期早报

## 导语

智能体工程化正在从两端同时收紧。一端是 Anthropic：用 Claude Managed Agents 把推理与执行彻底解耦，靠可恢复的事件日志和独立 Vault 撑起企业级落地，首字延迟中位数已经大幅下降，Notion、Sentry、Rakuten 等公司的生产环境已经跑通。另一端是一位阿里工程师：用三层加载架构、dispatcher 状态机和 G1-G8 门禁，治好了 CLAUDE.md「规则越堆越多、AI 越读越懵」的老毛病，给出了一套「用结构约束 AI，而不是用更多字约束 AI」的可复用模式。再往远看，Sequoia Capital 对 Google AI Studio 与 Gemini API 负责人的一场访谈提了一个更让人不安的趋势：模型正在把外层脚手架一口口吃掉--路由、执行环境这类原本要靠工程团队搭的能力，正逐渐被基础模型自己吸收，留给独立创业公司的窗口正在变窄。

今天的速览部分同样值得关注：从"决策-执行-交付三明治"模型看 AI 为什么不会取代软件工程师，到阿里云用声明式 CRD 把多智能体协作模型化的 AgentTeams 实践，再到端侧大模型靠 Arm SME2 指令集实现 Prefill 提速 80% 的工程细节，以及一位 4 人团队靠 Agent 协作平台冲上 GitHub Trending 的真实运转记录--这些案例和今天的三篇精讲互为印证：工程化的红利正在向「会搭框架、会用工具」的团队和个人集中。

## 精讲一：智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude

背景：从「一问一答」到「全程托管」

2023 年 Anthropic 开放 Claude API 的时候，接口设计非常朴素：token 进、token 出，一次请求对应一次模型轮次，剩下的事全部交给开发者自己处理。这套契约支撑了文档摘要、工单分类、文本改写这类「单轮搞定」的工作，但很快就不够用了--用户希望 Claude 能把一个任务从头跟到尾：去查一些东西、基于结果采取行动、观察发生了什么变化、再决定下一步做什么，而且要能直接在代码库、内部 Wiki、工单系统这些「真实战场」里操作。

要把 Claude 变成这样的智能体，开发者过去必须自己搭一套循环：问模型该做什么、执行工具调用、把结果喂回去、再循环一遍。Anthropic 在 2025 年推出的 Claude Code 内置了这样一套经过打磨的 harness（智能体执行框架），随后开放成 Claude Agent SDK，让开发者可以在同一套机器之上构建自己的智能体，而不必维护一套自研循环。

关键事实：把「大脑」和「双手」彻底拆开

即便有了 SDK，把智能体真正推向生产环境依然困难重重：智能体的代码要在哪里跑、会话历史和进度存在哪里、运行中断后能不能干净地恢复、出了问题的「爆炸半径」有多大、凭证怎么给而不暴露给生成的代码、自主运行一小时之后能不能复盘每一步。这些问题的根源往往是同一个架构选择--智能体的 harness 和它操作的文件系统跑在同一个容器里：容器要先启动才能让 Claude 开始思考（付出启动成本），代码执行紧贴着凭证，容器一旦挂掉整次运行就跟着没了。

Claude Managed Agents 的解法是把「调用 Claude 的 harness」和「代码真正执行的沙箱」彻底拆开，中间用一份可追加的事件日志（session）连接两端--记录每一次模型调用、工具调用和结果。这意味着 Claude 可以在沙箱还没创建出来之前就开始推理，沙箱本身离凭证很远，而整次运行随时都可以从事件日志中重建出来。围绕这套架构，Managed Agents 由三类资源组成：agent（模型 + 提示词 + 工具 + 护栏的配置）、environment（沙箱容器、网络规则和预装包，可以跑在 Anthropic 云上也可以跑在企业自己的基础设施上）、session（每次运行，把一个 agent 和一个 environment 配对，拥有自己独立的沙箱实例）。

凭证管理是另一处关键设计：MCP、CLI、GitHub 仓库等工具的 token 统一存进独立的 Vault，用信封加密保护，检索时需要一份经签名验证的请求 token，代码本身永远拿不到这些凭证--即便 prompt injection 想诱导模型读取自己的运行环境，也读不到任何敏感信息。在性能层面，由于 Claude 可以在环境并行启动的同时立即开始推理，从不调用工具的会话甚至可以完全跳过容器，实测下来首字延迟中位数（p50）降低了约六成，最慢的长尾情况（p95）降低超过九成。

为什么重要：基础设施差异正在被「抹平」

这篇文章最值得关注的一点，是它把「智能体工程」里最耗时的部分--安全、状态管理、权限、harness 调优--明确定义为「不构成产品差异化」的通用基础设施。当 harness 没能跟上模型智能的进化，智能体就会出问题：在 Claude Sonnet 4.5 上，模型会在上下文快用完时匆忙收尾、提前打住工作，团队为此专门给 harness 加了「上下文重置」机制；但到了 Claude Opus 4.5，这个行为消失了，之前加的重置反而变成了纯粹的开销。这说明 harness 调优本身是一种会随着模型迭代而过期的「沉没成本」，与其反复自己调，不如把这部分托管出去，把精力放在「上下文管理和领域专长」这些真正能拉开差距的地方。

与今日其他报道的关系

这篇文章和今天另外两篇精讲构成了一个完整的叙事闭环：Anthropic 用 Managed Agents 把通用 harness 能力产品化、托管化，恰好对应阿里工程师在精讲二里复盘的「自建 harness」的另一种路径--一个是把基础设施外包给平台，一个是自己动手搭三层加载架构；而 Logan Kilpatrick 在精讲三里提出的「模型吞掉脚手架」趋势，则提示无论是托管方案还是自建框架，都需要持续关注哪些能力会被模型本身吸收。Notion、Sentry、Rakuten 等公司的落地案例，也呼应了速览中阿里云 AgentTeams 把多智能体「组织化」的思路--基础设施成熟之后，下一个竞争点是「怎么把 Agent 团队真正用起来」。

阅读建议

如果你正在评估是否要自建智能体 harness，这篇文章值得通读全文，重点看「凭证管理」和「会话持久化」两部分的具体设计--这两点往往是自建方案里最容易留坑的地方。完整内容见 BestBlogs 阅读原文。

## 精讲二：AI 不缺智商缺纪律：一场 Harness 工程化实践

背景：CLAUDE.md 越写越厚，AI 反而越读越懵

一位阿里工程师分享了他过去两个月用 AI 编码时踩过的一个典型坑：一开始他用一个不断膨胀的 CLAUDE.md 解决 AI「不守纪律」的问题--先写单测、部署前评审、提交前合并主分支，所有规矩都往里堆。这套做法管用了三天，然后问题以更严重的形式回来了：规则多到把上下文「撑爆」，模型读完所有规则之后已经没有「脑容量」去读代码，于是开始遗忘、串味、自我矛盾。他由此得出一个核心判断：对付 AI 的不确定性，堆 prompt 是负债，搭框架（harness）才是资产。

关键事实：三层加载架构 + dispatcher 状态机 + G1-G8 门禁

文章的核心是一套三层加载模型，设计思想可以浓缩成一句话：把上下文当预算管理，而不是当免费的草稿纸。常驻入口层（CLAUDE.md + CLAUDE.local.md）只放角色定义、代码偏好、流程触发规则和门禁速查表，把主会话的常驻上下文压到 8K 以内；原子规则层（rules/）每条规则单一职责，本质是把踩过的坑固化成强制约束--「每条规则都是一次事故的墓志铭」；按需上下文层（context/）存放完整流程详情、Pre-Mortem 模板、TDD/ATDD 指南等深度内容，只在进入对应阶段时才被读取，用完即释放。

更关键的是角色 Agent 层：一个 dispatcher 读取 state.json 和 workflow.yaml，决定下一步该调用哪个 agent，自己只管路由不管业务；orchestrator 负责合成三角色（业务、技术、质量）评审的观点并向用户确认；developer、verifier、deployer、tester 各管一段，从方案到验收一步一岗。主会话被刻意「降级」成一个只听 dispatcher 指令的纯执行器--这个设计反直觉，因为我们本能地想让主模型更全能，但全能恰恰是污染之源。贯穿全文的还有一条 19 节点的标准研发链路，按 intent（意图）× risk（风险）动态裁剪--一次简单的 BUG_FIX/LOW 任务只需要检查 5 个节点，而 FEATURE/HIGH 任务要走满 19 个节点，外加一条硬规则：只要检测到真实业务代码改动，部署预发和接口测试自动成为必需节点，堵死「改了代码、没验证就收工」的漏洞。

为了回答「改完 harness 到底是变好还是变坏」这个问题，作者还搭了一套确定性评分平台：100% Python 逻辑、零 LLM 调用、3 次跑分 hash 完全一致，从 7 个维度（参考了 SWE-bench、AgentBench、Anthropic Eval Guide、CMMI 等方法论）给每次执行打分，权重最高的两个维度是流程完整性（22%）和代码正确性（22%）--前者靠「产物文件在不在」而不是「模型说做了」来判断，后者用真编译、真单测来防止 AI 自我汇报和实际结果之间出现「诚实度差距」。

为什么重要：从「堆 prompt」到「做框架」的范式转移

这篇文章给出的核心论点，是 AI Coding 的瓶颈正从「模型能力」转移到「流程工程」--模型已经足够聪明，但不稳定，而稳定性必须由外部框架供给。文章引用了多项研究支撑这个判断：Stanford 的「Lost in the Middle」研究表明 LLM 注意力呈 U 型分布，中部信息准确率显著下降；另一项研究（arxiv 2605.29682）发现原始 token 消耗和工具调用只能解释 agent 成功率方差的 R2=0.33~0.42，而验证反馈质量能达到 R2=0.94~0.99--也就是说，决定 AI 干活靠不靠谱的不是「给它多少预算」，而是「检查做得多好」。这也是为什么作者坚持用确定性评分而非 LLM 评委：宁要可复现的「粗糙分」，不要会漂移的「精准分」。

与今日其他报道的关系

这篇文章和精讲一形成了有趣的对照：Anthropic 把 harness 能力做成了托管产品，而这位工程师选择自己动手，用 dispatcher + 文件交接的方式搭了一套轻量级的「控制平面」。两者殊途同归的地方在于：都把「流程纪律」从模型推理中外置成确定性的基础设施--一个靠平台层的事件日志和 Vault，一个靠文件系统的状态持久化和 G1-G8 门禁。文章里提到的「fail-closed（默认拒绝，只放行显式允许的操作）」原则，也是精讲三里 Logan Kilpatrick 讨论的「脚手架」最终会沉淀成什么形态的一种答案：当模型还不能自我保证流程纪律时，这类外置约束就是当下最稳的解法。

阅读建议

如果你正在用 AI 做长周期、跨多个阶段的开发任务，这篇文章里的三层加载架构和 19 节点裁剪规则可以直接拿来参考；如果你更关心「怎么验证一次 harness 改动到底有没有用」，重点看第四部分的 7 维评分体系设计。完整内容见 BestBlogs 阅读原文。

## 精讲三：Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架

背景：Google 智能体生态的「重新打地基」

在 Sequoia Capital 主持的这场访谈中，Google AI Studio 和 Gemini API 负责人 Logan Kilpatrick 谈到了 Google 产品生态正在经历的一次范式转变。过去 Google 旗下的各类产品之间缺乏统一的主线，Gemini API 的出现提供了一层共享的基础智能层，而当前的演进则聚焦于通过一套被称为 anti-gravity agent harness 的智能体框架进行深度架构整合--这套框架横跨核心 IDE 功能、Web 界面、CLI 和 SDK 能力，把消费级和开发者工具统一改造成能够自主执行长周期任务的智能体原生环境。

关键事实：Gemini 3.5 Flash 的提升全部来自后训练，模型在「吃」周边脚手架

Logan 特别提到，智能体执行最强的落脚点是软件工程领域。在讨论模型训练路径时，他强调 Gemini 3.5 Flash 在编程任务上观察到的性能跃升完全来自后训练增益--这让一个体量更小的模型在编程任务上反超了此前的 Pro 版本。同时，Google 内部的深度「自用」（dogfooding）也大幅压缩了产品迭代周期，让工程团队能比传统开发流程更快地构建和上线复杂的桌面与移动端原生工具。

更值得关注的是「世界模型」架构的演进--以 Omni 这样的系统为代表，行业正从「文本、音频、图像、视频分别建一条独立流水线」转向「统一的单一模型结构」，能够同时解释多模态序列，并在编辑操作中展现出对场景的整体理解：调整环境的同时保持历史上下文和核心主体的一致性。Logan 给出的一个核心趋势是：应用层的一个普遍现象是基础模型在系统性地「吞掉」周边基础设施--曾经作为外部平台脚手架搭建的工程能力（比如路由机制、执行环境封装），正逐渐被上移并整合进模型自身的核心逻辑中。

为什么重要：独立公司的生存空间在收窄

对于独立创业公司和软件初创团队而言，Logan 给出的结论并不轻松：长期生存将高度依赖于在特定垂直领域内的深度专精，只有这种独特的市场聚焦才能在某些场景下跑赢通用化的消费级系统。换句话说，「在模型外面搭一层路由 / 编排 / 执行环境」这件事本身的护城河正在变薄--基础模型每完成一次后训练迭代，就可能把昨天还需要专门团队维护的脚手架变成今天的「免费午餐」。

与今日其他报道的关系

这篇访谈给今天的另外两篇精讲提供了一个更长远的视角。精讲一里 Claude Managed Agents 把 harness 做成托管基础设施、精讲二里那位工程师辛苦搭出的三层加载架构和 G1-G8 门禁--这些工程投入的价值会随着模型本身「吃掉脚手架」的速度而发生变化。但这并不意味着这些投入是徒劳的：恰恰相反，越是「过程可观测、可固化成规则」的工程能力，越有可能被模型吸收为原生能力，而那些依赖深度领域知识、无法简单规则化的部分，反而会成为 Logan 所说的「垂直专精」的真正壁垒。这也是为什么精讲二的作者特别强调「这套模式的价值会随模型进化而衰减，当模型强到能自我保证流程纪律的那天，harness 就该功成身退」--两篇文章在不同立场上得出了相似的判断。

阅读建议

如果你在思考公司或团队的技术护城河，这段访谈值得完整看一遍，尤其是关于「世界模型」架构演进和「脚手架被吞」的部分，能帮你判断当前投入的工程能力哪些更容易被模型吸收、哪些更值得长期押注。完整内容见 BestBlogs 阅读原文。

## 速览

为什么 AI 还没有取代软件工程师，而且也不会

这篇文章用「决策-执行-交付三明治」模型来解释一个反直觉的现象：尽管 AI 编程能力的进步速度和落地速度都远超其他行业，软件工程师的整体岗位需求并未出现大规模裁员。文章把知识工作拆成三层--决策（decide）、执行（execute）、交付（deliver），AI 主要压缩的是中间的「执行」层，但两端的「决策」和「交付」（包括对结果负责）依然高度依赖人类判断，不会因为模型能力的单纯提升而被自动化吞掉。文章还引用了一项基于真实 AI 编程会话日志的研究（SWE-chat），数据显示只有 44% 的 agent 生成代码最终进入了用户的正式提交。文章作者来自专注于 AI 评估的研究团队，本文是系列文章的第一篇，后续会讨论个体工程师的职业路径为何仍可能颠簸。阅读原文：BestBlogs。

云原生 - AI Native 多智能体数字人架构实践

阿里云开发者团队分享了他们基于商业化产品 AgentTeams 落地「数字员工小分队」的实践：通过声明式 CRD（自定义资源定义）把组织结构和协作策略模型化，让多个 Agent 像一个真实团队一样分工协作，而不是各自为政、互相抢活。文章用一个凌晨三点的告警场景开场--以前需要值班同学被叫醒、登录跳板机、翻日志、判断根因、必要时拉群升级，整套流程下来 MTTR（平均故障恢复时间）轻则一两个小时；而在 AI Native 的流程里，告警进来 30 秒内就有 Agent 数字人贴出第一轮诊断结论并 @ 另一个 Agent 进一步定位，90 秒后根因定位完成并给出可执行修复脚本，留给人的只是「是否在生产环境直接执行修复」这一个判断。

文章还梳理了从 RPA 到大模型再到多 Agent 协同的演进逻辑：RPA 是「录屏式」自动化，规则固定但不理解业务，界面一变就要返工；大模型带来了「理解」能力，Agent 不再是录屏脚本，而是能听懂模糊指令、查文档、调工具、做判断；但单 Agent 有天花板--上下文窗口有限，遇到需要多角色协作的真实业务场景（产品提需求、研发写代码、测试跑回归、文档同步发布）就会力不从心，于是自然演化到多 Agent 协同。文章特别强调「让多个 Agent 跑起来」和「让它们像一个团队一样工作」是两件完全不同的事：没有组织结构就没有稳定的分派关系，没有通信策略就没有可控可审计的消息边界，没有共享状态和统一网关就没法把 LLM 和工具（MCP）安全接入。AgentTeams 正是为解决这一整套组织化问题而生，文章给出了网络架构图和研发、值班、开源维护等场景的具体落地步骤。阅读原文：BestBlogs。

端侧 AI 提速 80%？如何让 Qwen3-VL 在手机起飞

通义实验室团队手把手演示了如何利用 Arm 第二代可伸缩矩阵扩展（SME2）指令集与 MNN 推理引擎，在支持 SME2 的旗舰手机（如 vivo X300）上部署 Qwen3-VL-4B 这样的多模态模型，实现 Prefill 阶段提速超过 80%。文章解释了 SME2 的核心突破--引入 ZA 矩阵累加器寄存器和流式模式，让 FMOPA 等指令可以一条指令完成一个矩阵 tile 的外积累加，相比传统 Neon 需要手工拆分向量乘再累加效率大幅提升。MNN 对 SME2 的支持采用「编译时内建 + 运行时自动检测」设计：编译时通过 MNN_SME2 开关（默认开启）控制是否编译优化内核，运行时自动检测硬件支持情况，不支持则平滑回退到 i8mm → Neon，不会崩溃；同时覆盖 FP32、FP16、INT8/INT4 三种精度，并集成了 Arm 官方 KleidiAI 加速库。文章给出了从引擎编译、模型部署到 APP 构建的完整实战流程。阅读原文：BestBlogs。

人是最慢的节点，还怎么管 AI Agent？|AI 跃迁者调研

腾讯研究院「AI 跃迁者调研」系列第四期，深度访谈了开源 Agent 协作与编排平台 Multica 的创始人张佳圆。Multica 连续霸榜 GitHub Trending，一周涨 1.2 万 Star，访谈时已收获 2.75 万 Star，平台上每 10 秒就触发一个 Agent 任务--而做出这一切的团队只有 4 个人，这 4 个人本身也是 Multica 最极端的用户，构成了一个「4 人 + 几十个 Agent」的超级小团队。

访谈中提出了几个值得玩味的观点：整个组织的产出效率瓶颈如今已经是「人」而非 AI 或 Agent；建太多管理层级是对人类低效组织的拙劣模仿；快速做一个错误决策，比缓慢做一个正确决策更好，因为错误决策可以修正，但犹豫不决会让整个组织在某个环节卡死；只要活得足够久，本身可能就是一种很大的壁垒；而人的思考在 AI 时代是被低估的--AI 给出的东西可能只是一个「中位数」水平的答案。产品定位上，Multica 做的不是 Agent 本身，而是一个模型和平台中立的协作层，处理多个 Agent 怎么分工、怎么传递任务、怎么合并上下文。产品的三个核心概念分别是：运行时（Agent 运行的机器，可以是本地 MacBook、Mac Mini 或服务器，统一注册到 workspace）、智能体（相当于 AI 员工，可分配任务、设置角色）、Agent Team（多个 Agent 组成的小队，有自己的工作流程）。日常使用模式是创建任务、分配给对应的 Agent 或 Agent Team，人只需做最终 review，需要介入时会出现在 inbox 里。阅读原文：BestBlogs。

Fable AI 实现 1770% 性能提升并发现关键 Bug：我的个人奇点时刻

知名开发者 Taelin（@VictorTaelin）报告了一次他称之为「个人奇点时刻」的体验：Anthropic 的 Fable AI 在代码优化任务上，以数量级优势超越了他本人、Opus 4.8 以及一整群 GPT-5.5 智能体，实现了高达 1770% 的性能提升，并且在优化过程中还顺带发现了他自己代码里一个相当微妙的 Bug。这条推文引发了广泛讨论，因为它把「AI 代码优化能力超过资深开发者本人」这件事变得非常具体--不是某个 benchmark 上的分数对比，而是一次真实的、可验证的优化任务。阅读原文：BestBlogs。

CFO 的自白：为什么你的加薪变成了 GPU

Peter Girnus（@gothburz）分享了一段来自某 CFO 的「自白」，揭示了一个企业用 AI 投资取代员工加薪决定背后的会计逻辑：花在人身上的每一块钱是当期费用（expense），会直接拉低利润率、受到市场审视；而花在 GPU 上的每一块钱则可以记为资本资产（capital asset），不会以同样的方式冲击利润表，也因此能规避市场对人力成本上涨的审视。这条推文用一种近乎赤裸的方式解释了为什么很多公司在「降本增效」叙事下，会优先把预算投向算力而不是涨薪--这并非单纯的技术判断，而是财务报表结构带来的激励扭曲，也是很多团队感受到「公司有钱买卡、没钱涨薪」的真实原因。阅读原文：BestBlogs。

"无招" 没变，但 AI 改变了公司和人才的权力关系

晚点 LatePost 以钉钉 CEO 陈航（花名"无招"）因高压管理风格被阿里合伙人委员会直接换掉为切入点，分析了 AI 时代大公司与顶尖人才之间权力关系的根本性转变。陈航以"高压"管理风格闻名，曾要求团队早 9 点打卡、深夜巡楼查岗，甚至要求员工动员亲友注册钉钉、完成"族谱上钉"的考核任务。这些管理方式过去虽屡受争议，但阿里内部一直没有针对性动作；这一次，一篇 7.5 万字的员工离职长文迅速传播后，阿里合伙人委员会在 6 天内罕见回应，直指钉钉的管理方式"不是阿里文化该有的样子"，不到 24 小时后陈航卸任 CEO。文章借此事件展开，探讨为什么在 AI 重塑生产力的当下，顶尖人才和公司之间的议价权正在发生结构性变化。阅读原文：BestBlogs。

## 补充阅读

今天的候选内容里还有不少值得一看的角度，限于篇幅未能逐一展开，这里简单提一下：

- 多智能体编排和协作平台是今天的一条隐藏主线--从 Claude Managed Agents 的托管编排，到阿里云 AgentTeams 的声明式协作模型，再到 Multica 的「4 人 + 几十个 Agent」实践，三者分别代表了「平台托管」「企业内部落地」「创业团队自建」三种不同的路径，适合关注智能体编排方向的读者对照阅读。

- 端侧推理优化（如 Qwen3-VL 的 SME2 提速）和云端智能体托管基础设施（如 Claude Managed Agents）看似是两个方向，但都指向同一个趋势：把"跑得动 AI"这件事的门槛持续往下压，无论是手机端还是企业基础设施。

- 关于 AI 对就业市场的影响，"决策-执行-交付三明治"模型和"CFO 的自白"可以放在一起读--前者从岗位需求结构的角度论证 AI 不会带来大规模裁员，后者从企业财务激励的角度解释了为什么算力投入比涨薪更"划算"，两者从不同角度解释了同一个现象的两面。

- 钉钉"无招"事件本质上是一个组织管理案例，但放在 AI 重塑权力关系的背景下读会更有意思--尤其是和 Multica 里"人是最慢的节点"的判断对照，能看到大公司和小团队在同一个趋势下走向了截然不同的应对方式：一边是用考勤和层级管理人，一边是用 Agent 团队去掉中间层、让 4 个人端到端做完所有事。

- 如果你既关心工程框架又关心组织设计，可以把今天的内容串成一条线读：harness 解决的是「AI 怎么干活才靠谱」，AgentTeams 和 Multica 解决的是「一群 Agent 怎么像团队一样协作」，而钉钉和 CFO 的两篇则提醒你，工程能力之外，组织和激励结构同样会决定 AI 红利最终流向谁。

## 今日阅读路径

如果今天时间有限，建议按以下顺序读：

1. 精讲二《AI 不缺智商缺纪律：一场 Harness 工程化实践》--这是今天信息密度最高、最具操作性的一篇，三层加载架构和 19 节点裁剪规则可以直接套用到自己的 AI 工作流里，读完能立刻上手改造。

1. 精讲一《智能体交互界面的演进：使用 Claude Managed Agents 进行构建》--和精讲二形成互补视角，了解平台层提供了哪些「托管基础设施」，帮你判断哪些事该自己搭、哪些事该交给平台。

1. 精讲三《Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架》--作为前两篇的「远景校准」，提醒你在投入工程化建设时，留意哪些能力可能很快被模型本身吸收。

如果还有余力，再读一下「人是最慢的节点，还怎么管 AI Agent？」--它把今天所有关于工程化、协作平台的讨论，落回到「人在这个体系里到底该做什么」这个最终问题上。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。