# Claude Code 路径、分布式 RL 训练与 SaaSpocalypse 现象剖析

- 来源：ginobefun (@hongming731)
- 发布时间：2026-05-28 08:34
- AIHOT 分数：66
- AIHOT 链接：https://aihot.virxact.com/items/cmporjk1p08knslv4q0j208ef
- 原文链接：https://x.com/hongming731/status/2059795308738126191

## AI 摘要

Claude Code 首年营收 25 亿美元，占据编程工具 51% 市场份额，其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作，基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2，其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时，“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时，传统软件中间层正面临冲击。

## 正文

http://x.com/i/article/2059794481965408257

# BestBlogs 早报 · 05-28|Claude Code 路径、分布式 RL 训练、SaaSpocalypse

在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-28

今日精选聚焦 AI 编程工具的「引擎室」：Anthropic 设计负责人 Megan 亲述 Claude Code 如何从 12 人 CLI 实验起步，在一年内拿下 51% 市场份额；Cursor 与 Fireworks 公开 Composer 2 分布式 RL 训练内幕，揭示从应用包装层到自训练基础模型的工程路径。与此同时，一篇关于「SaaSpocalypse」的深度文章正面拆解：当 Agent 直接调 API、绕过 SaaS 界面层，谁会最先倒下，Software 3.0 时代工程师的角色又将如何重写。

## 导语

2026 年 1 月，美国软件股单月暴跌 15%，华尔街称之为「SaaSpocalypse」。同一时期，Claude Code 悄然完成了另一种意义上的颠覆：首年营收 $25 亿、编程工具市场份额 51%。两件事并非偶然同步--它们共同指向同一个转折：AI 正从工具进化为基础设施，从辅助进化为主导。

今天的早报把这个转折的三个截面放在一起：产品路径（Claude Code 如何被设计出来）、训练工程（Composer 2 如何被炼成）、产业冲击（SaaS 中间层如何被瓦解，工程师角色如何迁移）。读完这三篇，你会对「AI 原生」有更立体的感知，而不只是一个标语。

速览板块还覆盖了 ESMFold2 在蛋白质预测领域的「苦涩教训」时刻、Lyft 用 LangGraph 把 Agent 开发周期从半年压缩到数周的工程实践、Vibe Coding 遭遇安全清算的真实案例，以及 Airtable、Fireworks 的基础设施故事。

## 精讲一：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径

Claude Code 的起点比大多数人想象的低得多。2024 年，Anthropic 内部一个 12 人团队决定试验一个想法：把 Claude 接入命令行，直接操作文件系统。第一个原型配置需要整整一个小时，距离所谓「产品」还差得很远。

但早期内部演示视频在 Slack 流传后，团队意识到方向是对的。接下来三个月，他们专注于三件事：打磨用户体验、消灭平台 Bug、大量内部使用积累信心。这种「先内部高强度使用，再对外发布」的节奏，成为 Claude Code 后续迭代的基本范式。

什么让 Claude Code 跑得这么快？

Anthropic 设计负责人 Megan 在 Product School 的分享里，把这归结为三个机制：

第一是流动 Pod 结构。传统产品开发里，设计师做设计、工程师写代码、PM 写 PRD--边界清晰但也僵硬。Claude Code 团队打破了这层边界：设计师会直接把代码推到生产环境，工程师主动做用户体验决策。Pod 的规模和构成随功能需求弹性调整，通常是 3 至 5 人，没有固定比例。这种跨职能的流动性，在 AI 加速迭代的环境下释放了显著的执行弹性。

第二是把质量关口移到运行时。当 AI 让代码生成速度提升 10 倍，传统的 PRD、静态 Mockup 等质量控制环节就成了瓶颈。Anthropic 的解法是把验收标准前移到真实运行行为：团队内部高频部署原型，监控实际使用模式，用运行时数据而非文档勾选来决定是否推进。这个方法在 AI 原生组织里有深刻意义：它不是「更快写代码」，而是「把反馈回路压缩到极致」。

第三是Bottom-up 企业采用。Claude Code 没有走自上而下的销售路线，而是从工程师个人使用开始，自然扩散到团队，再渗透到组织层面。这种采用曲线在金融基础设施、零售等高度监管行业也同样奏效--先赢得工程师，再赢得决策者。

度量体系的迁移

Megan 特别强调了一个度量迁移：从 Token 用量转向用户留存与管道营收。这看起来是小事，背后却是产品哲学的转变--衡量 AI 工具价值的标准，从「有没有人用」变成了「用了之后会不会留下、会不会推动业务增长」。

管理层须亲自上手、持续操刀 Repo，不是作秀，是为了在迭代加速的环境里保持对产品的真实感知。这条原则在 AI 原生组织里具有普遍价值：领导者的直接参与，是维持迭代弹性的结构性保障，而不仅仅是传递信号。

为什么值得深读

这篇内容不是产品方法论的泛泛总结，而是一个具体产品在极速增长过程中形成的操作手册。流动 Pod、运行时质量门控、Bottom-up 采用--这三个机制彼此咬合，缺一不可。如果你在思考 AI 原生团队该怎么运转，这是目前能找到的最具体的参照之一。

值得额外关注的是 Anthropic 的女性领导力比例：CPO、工程负责人、平台产品负责人、平台工程负责人和总裁均为女性。这不是一个单独的事实，而是组织文化的折射--一个真正重视多元视角的组织，往往在打破固有边界（比如「设计师不写代码」）这件事上也更有行动力。

阅读建议：结合精讲二一起看。Claude Code 是产品侧的 AI 原生实践，Composer 2 是模型训练侧的 AI 原生实践，两者共同勾勒出「AI 原生」的两种形态。

阅读链接：Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径

## 精讲二：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体

大多数 AI 编程工具把通用 LLM 套上提示词工程就算完事。Cursor 走了一条完全不同的路：从头训练一个专门为软件工程优化的模型，并且为此搭建了一套异步分布式 RL 基础设施。

为什么要自己训模型？

Federico（Cursor 研究负责人）给出了一个直观的类比：LLM 的参数空间就像一块存储介质，位数有限。通用大模型把这些位分配给数学、多语言、常识推理等各类能力；Cursor 的做法是把所有位都集中到软件工程这个窄域，用专注换效率。

结果是：更小、更低延迟的模型，在代码编辑任务上超过了比它大得多的通用模型（如 GPT-4 Opus），运行成本低一个数量级。这是 Rich Sutton「苦涩教训」的一个有意义的反例--在足够窄的领域，专注的数据维度比纯粹的规模更有效。

Composer 2 的双轴训练路径

Composer 2 的训练分两个阶段：

第一阶段是持续预训练，以 1 万亿参数 MoE 模型 Kimi 2.5（30B 活跃参数）为基础，大规模运行代码和 web token 的下一个 token 预测，拓宽模型的基础分布，编码基础库知识和工程模式。

第二阶段是大规模强化学习。模型进入主动 RL 循环，在 Cursor 环境框架内执行工具调用、获得奖励信号，逐步学会在真实代码编辑场景中做出正确决策。与预训练「展示如何写代码」不同，RL 阶段的目标是「学会在工具和结果中导航」。

异步流水线：让 GPU 全程满负荷

标准 RL 管线的一个固有问题是计算空转：推理阶段训练器空转，权重更新阶段推理引擎空转。Cursor 与 Fireworks 合作构建的异步流水线像一条持续运转的工厂产线：推理 Rollout 和权重更新同步进行，GPU 全程满负荷，消除了昂贵计算资源的空转损耗。

三个工程难题与解法

除了异步流水线，团队还公开了三个关键工程决策：

- Delta 权重压缩：在分布式训练中，每次权重更新都需要在全球节点同步，数据量巨大。Delta 权重压缩只传输权重的变化量，把全球同步流量降低了约 20 倍。

- Router Replay Tracking：稀疏 MoE 架构（Sparse Mixture of Experts）的一个棘手问题是数值漂移--不同专家路由的使用频率不均，导致训练不稳定。Router Replay Tracking 通过记录路由选择历史来稳定这个过程，保持数值对齐。

- 自摘要上下文压缩：编码智能体在真实工作中会产生超长轨迹，百万 Token 规模的上下文管理是一个挑战。Composer 2 把上下文压缩能力训练成模型的内生能力，而不是外挂规则，让智能体在长轨迹中保持推理连贯性。

一个值得思考的更大问题

Cursor 的路径揭示了一个范式：当模型训练成本不再是天文数字，专注于特定领域的「小而精」模型将会越来越多。通用大模型提供基础能力，垂直专有模型在特定任务上以更低成本实现更高性能。这个趋势在今天的速览里也有印证--ESMFold2 在蛋白质预测上用同样的逻辑实现了对 AlphaFold3 的超越，只是在生物信息领域，通用路线反而是赢家。领域特性决定了什么时候应该专注、什么时候应该通用。

为什么值得深读

这篇不是概念介绍，而是 Cursor 和 Fireworks 工程师级别的实践总结。如果你在做 AI 应用层，这篇帮你理解专有模型训练的真实成本和收益；如果你在做 ML 基础设施，异步流水线和 Delta 压缩是可直接参考的工程方案。

结合精讲三看：Composer 2 展示的是「工程师如何用 Software 3.0 的方式工作」，而精讲三在问的是「工程师的工作本身会被如何改变」。

阅读链接：Cursor 与 Fireworks 如何用分布式 RL 基础设施训练 Composer 2 编码智能体

## 精讲三：2026：软件的末日、工程师的陨落、平庸的消失

2026 年 1 月，美国软件股经历了一场 2008 年金融危机以来最惨烈的单月跌幅：标普北美软件指数下跌 15%。不是因为业绩崩塌，而是因为华尔街意识到一件事--SaaS 的护城河正在被 AI Agent 从根部挖空。

华尔街给这场抛售起了个名字：SaaSpocalypse，软件末日。

被做空的是哪一层？

过去二十年，SaaS 的商业逻辑建立在一个前提上：把企业功能打包成操作界面，按席位收取月费。界面即产品，界面即护城河。员工用久了形成肌肉记忆，替换成本极高，这是 SaaS 估值飞涨的核心驱动力。

AI Agent 打破的，正是这个前提。Salesforce CEO Marc Benioff 在 X 上发了一条帖子，语气平静、但意味深长：「所有 AI Agent 都能通过 API 直接访问 Salesforce Headless 360，无需浏览器。」这家靠界面起家的商业帝国，亲手把自己的界面变成了可选项。

逻辑链条是这样的：Agent 绕过 SaaS 界面直接调 API → 界面不再是护城河 → 席位订阅模式失去基础 → 依赖界面习惯维持转换成本的 SaaS 中间层，壁垒被 AI 复制。

📷

但不是所有软件都会死。a16z 的分析框架给出了一个清晰的区分：AI 大幅降低了重建一套系统前 80% 的成本，而剩余的 20%--特殊事项、审批流程、合规要求--仍然是「可用原型」与「真正替代品」之间的分水岭。

被集中做空的，是价值落在「前 80%」的中间层：以数据分发为核心的 Thomson Reuters（单日暴跌 16%）、以流程协调见长的 Atlassian、标准化在线法律服务平台 LegalZoom。它们的共同特征：壁垒恰好集中在最容易被 AI 复制的区域。

而管理财务账目的后台系统、涉及合规审计的数据平台，则属于那难以逾越的「20%」。ERP 的迁移，a16z 把它比作「病人在跑马拉松时做开胸手术」。

软件会变少吗？答案是杰文斯悖论

直觉上，AI 替代软件 → 软件总量减少。但 1865 年的一个经济学规律说了相反的故事：蒸汽机效率越高，英国消耗的煤炭反而越多--效率提升让资源变便宜，催生了大批原本不存在的使用场景，导致总消耗净增长。这就是杰文斯悖论。

Token 正走同一条路。GPT-4 问世时，每百万 Token 调用成本 37.5 美元；两年后，GPT-5 High 降至 3.63 美元，性能却突破人类博士水平。成本下降超过 99%，但 Token 总消耗量呈指数级攀升。OpenClaw 之父 Peter Steinberger 晒出他的账单：过去 30 天，个人级别消耗 6030 亿 Token，单月花费超过 130 万美元。

每一次 Token 价格的下跌，都不只是让现有软件运行得更便宜，而是解锁了一批之前根本不存在的软件。Vibe Coding 让非技术人员能直接把想法变成应用；OpenDesign 把「从 GitHub 链接到完整 slides」这个工作流变为现实--这在两年前根本不存在。

工程师的角色迁移：从写代码到 Software 3.0

文章的结尾是最值得停下来想一想的部分：工程师的角色正从「写代码」迁移向 Software 3.0--设计评估体系与奖励环境。一位干了二十年的资深工程师丢了工作，他说：「我花了五秒钟把所有情绪过了一遍，然后就明白，好吧，我的职业生涯完了。」

平庸的产出正在加速消失，但这不意味着工程师集体消失--而是角色的质变。能设计评估体系、能定义奖励函数、能理解 Agent 的边界和失败模式的工程师，将会更稀缺、更有价值。

协议层：MCP 正在成为新的 USB 接口

文章还深入分析了软件「液化」后的基础设施需求。Anthropic 在 2024 年底推出的 MCP（Model Context Protocol）正在成为 Agent 时代的 USB 接口--一次接入，所有支持 MCP 的 AI（Claude、ChatGPT、Cursor、Copilot 等）均可调用。在 MCP 之前，每让 AI 接入一个新工具都要单独写一套适配代码；MCP 把这件事标准化了。这是软件从「固定形态的产品」变成「按需生成的介质」之后，必须出现的基础管道。

与今日其他内容的关联

这篇文章的论述与精讲一、二构成了一个完整的三角：Claude Code（产品侧 AI 原生）+ Composer 2（训练侧 AI 原生）+ SaaSpocalypse（产业侧 AI 冲击）。三篇合在一起，描述的是同一场变革的不同切面。今天速览中的 Lyft LangGraph 平台、Airtable 语义搜索层、Fireworks 独角兽崛起，也都是这场变革在不同应用层面的具体落地--当你把它们放在这篇文章的框架里，会看到一幅更清晰的全景图。

阅读建议：如果你是工程师，重点看「工程师角色迁移」和「Software 3.0」部分；如果你在做产品或投资，重点看「转换成本光谱」和「杰文斯悖论」部分。文章较长，但论证密度高，值得完整阅读。

阅读链接：2026：软件的末日、工程师的陨落、平庸的消失

## 速览

ESMFold2：蛋白质领域的「苦涩教训」

BioHub 团队推出开源蛋白质结构预测模型 ESMFold2，在多样化数据上扩展简单的 BERT 类 Transformer，在蛋白质相互作用（尤其是抗体预测）方面超越了 AlphaFold3 等专用模型。这标志着计算生物学迎来了自己的「苦涩教训」时刻--通用架构加海量数据，再次击败精心设计的专用架构。和今天精讲二的逻辑形成有趣对照：Cursor 走专用模型路线赢，但生物信息领域是通用路线赢，背后的关键差异在数据分布和任务边界。Alex Rives 与 BioHub 团队的这次探索，对正在考虑「该专注还是该通用」这个问题的 AI 研究者有直接的参考价值。阅读原文

Lyft 如何用 LangGraph 把 Agent 开发周期从半年压缩到数周

Lyft 利用 LangGraph 和 LangSmith 构建了一个自助式 AI Agent 平台，让运营团队、VoC 负责人和产品经理能够通过提示词和配置独立开发和迭代客服 Agent，无需每次都依赖 MLE 介入。核心架构是路由器型多 Agent 系统：一个元 Agent 作为有状态路由器，用 Command（goto=…） 把请求分发给专用子 Agent，每个子 Agent 并行运行安全检查。LangSmith 负责追踪、仪表盘和 LLM-as-a-judge 评估。结果是 Agent 开发周期从约六个月压缩到数周--这和精讲三「软件液化」的论断高度呼应：当非技术人员能直接配置 Agent，软件开发的边界正在重新定义。阅读原文

VibeSec 的清算时刻

Thoughtworks 全球营销团队在把一个 Vibe Coding 原型扩展到生产环境时，遭遇了两次险情：AI 建议把存储桶设为公开访问（会泄露敏感品牌资产），以及给予过于宽泛的 Token 权限。两次都是人类工程师提出质疑才得以阻止。核心结论：Vibe Coding 加速了原型到产品的路径，但 AI 生成的代码需要确定性的护栏，而不仅仅是更好的提示词，才能达到生产安全标准。这是当下「Vibe Coding 热潮」最值得警惕的真实案例之一。阅读原文

Airtable 如何为 AI 功能构建语义搜索层

Airtable 有一个关键数据观察：任何一周内，75% 的客户数据库都处于空闲状态。这个事实驱动了整套架构决策--选择 Milvus、采用每库分区策略、HNSW 索引加冷热数据分离。当一个分区在内存中时查询响应极快，冷分区可以在秒级内从存储重新加载。这不是「选了哪个向量数据库」的故事，而是「一个数据特性如何决定了一整套工程决策链」的案例，对有类似冷热数据分布的团队有直接参考价值。阅读原文

万字入门 AI Infra：大模型的数学与优化逻辑

从 RMSNorm、Softmax、Causal Mask 到 Sampling，逐层拆解大模型推理中核心操作的数学原理与 Infra 优化逻辑。核心论断：AI Infra 优化的本质是用数学上的等价变换，或对精度的适度妥协，换取更高的硬件利用率。文章从「为什么需要归一化」这个最基础的问题出发，解释 FP16 数值上限 65504 为何会成为工程约束，再一路推导到 Softmax 的数值稳定性技巧和 Causal Mask 的实现选择。不到 5 万字，覆盖从高中数学到 FP16/BF16 精度权衡的完整知识链。适合想从数学和工程两个维度同时理解大模型基础设施的读者，也是今天精讲二 Composer 2 训练工程的极佳知识背景补充。阅读原文

别再盯着 AI Agent 干活：构建运行时上下文引擎

Brandon Walsenuk 认为，可靠的自主编码 Agent 需要「运行时上下文引擎」，而不只是更长的提示词或更多工具权限。他指出了三个常见误区：朴素 RAG 因「搜索满足感」效应导致信息遗漏（Agent 找到第一个看似匹配的答案后就停止探索，错过更完整的技术现实）；单纯连接 MCP 管道解决不了组织知识缺失；给 Agent 更多权限不等于给它更好的判断力。运行时上下文引擎需要理解组织知识、协作关系、权限边界和实时架构冲突，这是一个系统设计问题，而不是提示词优化问题。结合精讲二的 Composer 2 自摘要上下文压缩一起看，两者都在解决同一个问题：如何让 Agent 在长期运行中保持对上下文的准确感知。阅读原文

AI 基础设施新晋独角兽：Fireworks、Baseten、OpenRouter

Fireworks 和 Baseten 双双跻身独角兽，OpenRouter 宣布 $113M B 轮，过去六个月周 Token 处理量从 5T 增至 25T。这个数字本身就是杰文斯悖论的实时数据点：基础设施越高效，消耗的 Token 量不减反增。这期 AI 新闻汇总完整覆盖了 AI 基础设施独角兽的崛起，以及 Agent 编排工程、长程推理、模型架构更新和生产工具的最新进展。值得注意的是，Fireworks 同时也是今天精讲二 Composer 2 训练的基础设施合作方--同一家公司在一天内以两种身份出现在今天的早报里，这本身就说明了 AI 基础设施层正在迅速从工具变成关键路径。阅读原文

## 补充阅读

CodeRabbit 如何用 Claude 构建 Agent 编排系统 CodeRabbit 在生成任何代码之前先运行结构化规划阶段，弥合开发者意图与 AI 输出之间的差距。每周 review 200 万 PR、服务 15，000+ 客户的规模背后，是一套「先规划、再生成」的编排逻辑--规划阶段帮助 Agent 在行动之前理解变更的意图和范围，减少「代码能跑但没做对事情」的问题。这和今天速览里「VibeSec 清算时刻」形成互补：一个说 Vibe Coding 的安全风险，一个说规划层如何系统性地降低 AI 代码生成的偏差。适合正在思考如何提升 AI 代码生成可靠性的工程团队。阅读原文

使用 Codex 构建自我改进的税务智能体 OpenAI 与 Thrive Holdings 合作开发的 Tax AI，把从业者的修正转化为结构化评估目标，让 Agent 自主改进--准确率达 97%，吞吐量提升 50%。核心思路是把生产反馈直接接入评估循环，让改进不再依赖工程师手动推进：从业者的修正 → 归因到具体评估目标 → Codex 生成候选修复 → 回归测试验证 → 工程师审核并关闭循环。这套自改进框架和精讲三「Software 3.0」里「设计评估体系与奖励环境」的工程师新角色高度契合。适合正在思考「Agent 如何自我优化」的团队。阅读原文

使用 LLM 保护源代码安全 Anthropic 六步循环法：威胁建模 → 沙箱搭建 → 漏洞发现 → 验证 → 分类 → 修复。发现漏洞已经可以大规模并行化，瓶颈已转移到验证、分类和修复。截至 2026 年 5 月 22 日，Anthropic 在开源软件中已披露 1，596 个漏洞，其中仅 97 个完成修补--这个数字本身就是现状的真实写照：AI 发现的速度远超人类修复的速度。适合安全团队和关注 AI 辅助安全审计的工程师。阅读原文

Agent Harness Engineering 综述 CMU、Yale、JHU、Virginia Tech、Amazon 联合出品，用 ETCLOVG 七层框架（执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估、安全治理）系统梳理 Agent Harness 工程，覆盖 170+ 开源项目。核心判断：Agent 在长任务、真工具、真实环境中失败，往往不是模型不够聪明，而是系统没把它管好。只改工程外壳不改模型，有研究在 coding benchmark 上实现了最高 10 倍提升；固定 GPT-5.2-Codex Agent 通过重构系统 prompt 和加入中间件，在 Terminal-Bench 2.0 上从 52.8% 提升到 66.5%。适合正在把 Agent 从演示推向生产的工程团队。阅读原文

淘天集团「数字 SRE」：AI 主导代码质量治理 从 AI 辅助开发到 AI 主导开发的四阶段演进，淘天集团分享如何让「数字 SRE 员工」自动发现、端到端修复 Blocker 问题，开发者只在关键节点兜底审核并发布兜底。这是国内工程团队把 AI 主导开发落地的少见公开案例：AI 负责语法级修复这类有明确规则的 Blocker，人类保留关键审核节点--这正是精讲三「工程师角色迁移」从「写代码」到「审核和边界设定」的具体实践。阅读原文

DiT 残差流的收敛瓶颈与 DAR 解法 南京大学 LAMDA 与阿里巴巴智能引擎团队提出 Diffusion-Adaptive Routing（DAR），用可学习、时间动态的跨层路由替代 DiT 中固定的残差累加，实现近 9 倍训练加速并提升生成质量。论文发现标准残差路由在深层会出现三类问题：PreNorm dilution（历史累积量越来越大，新层想改变表示须对抗膨胀的主干）、time-agnostic 融合无法适应不同去噪阶段的信息需求、梯度漂移。DAR 用动态路由权重让模型按 timestep 自适应调整跨层信息流。适合关注视觉生成模型训练效率的研究者和工程师。阅读原文

## 今日阅读路径

时间有限，推荐优先读这三篇：

1. 2026：软件的末日、工程师的陨落、平庸的消失（精讲三）--理解当前产业变局的整体框架，SaaSpocalypse 背后的商业逻辑和工程师角色迁移。这是今天内容的「坐标系」，先读这篇，其他内容会更有定位感。

1. Anthropic 设计负责人谈 Claude Code：一年拿下 51% 市场份额的产品路径（精讲一）--具体、可操作的 AI 原生产品开发手册。流动 Pod、运行时质量门控、Bottom-up 采用，三个机制对任何在思考 AI 原生组织的人都有直接参考价值。

1. VibeSec 的清算时刻（速览）--Vibe Coding 安全风险的真实案例，15 分钟读完，能帮你在下一个 AI 代码项目里提前避坑。

时间充裕的扩展路径：

- 精讲二（Composer 2 训练工程）+ 速览「Lyft LangGraph 平台」--从模型训练到 Agent 平台，构建对 AI 基础设施的完整认知。

- 补充阅读「Agent Harness Engineering 综述」--为精讲二和速览「运行时上下文引擎」提供理论框架支撑。