# Agent工程底层问题：协议对象、四层嵌套、自我改进外环

- 来源：ginobefun (@hongming731)
- 发布时间：2026-07-03 07:32
- AIHOT 分数：50
- AIHOT 链接：https://aihot.virxact.com/items/cmr4560ab00ltsl3gjrdua44s
- 原文链接：https://x.com/hongming731/status/2072825712034332928

## AI 摘要

BestBlogs早报07-03聚焦Agent工程底层问题。精讲一用Protocol视角将Agent Runtime拆解为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象，强调状态持久化是区分玩具与生产的分水岭。精讲二提出AI工程范式的四层嵌套结构：Prompt→Context→Harness→Loop，指出2026年企业应全力投入L3，跳过L3直接做L4是最危险错误。精讲三介绍outer loop让agent持续改进主系统本身。三篇共同追问“哪些问题不会消失”，提供比追逐框架更耐用的评估坐标系。

## 正文

http://x.com/i/article/2072825086512693248

# BestBlogs 早报 · 07-03|用协议对象拆 Agent Runtime，四层嵌套讲清企业 Agent 落地，再加自我改进外环

在线阅读本期早报

BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。

## 导语

今天的三篇精讲，恰好把焦点从「Agent 框架本身」移开，去问那些不太会变的问题。

第一篇来自阿里云开发者，作者不想每换一个 Agent 框架就重学一套对象体系，于是用 Protocol 视角把 Agent Runtime 拆成 Thread、Run、Step、Event、Artifact、Checkpoint 这 6 个稳定对象，核心判断是：框架会更迭，但任务生命周期、状态持久化、中断恢复这些问题不会消失，而真正区分玩具与生产的，正是状态持久化。

第二篇来自腾讯云开发者，把 AI 工程范式拆成 Prompt、Context、Harness、Loop 四层，并强调它们是嵌套而非替代关系，作者认为 2026 年大多数企业应全力投入 L3，跳过 L3 直接做 L4 是最危险的错误。

第三篇是 Latent.Space 对 Introspection 创始人 Roland Gavrilescu 的访谈，讲如何用 outer loop 让 agent 持续改进主系统本身。

三篇放在一起，恰好覆盖了「协议/runtime - 工程范式 - 自我改进外环」这条线索，建议连着读，对照感更强。一个共同的提问方式值得注意：三篇作者都没有去追「最新最热」的那个框架或口号，而是退一步问「哪些问题不会消失」「哪一层是必须先打牢的地基」--这种提法在框架名词越堆越多的当下，反而更耐用。

其余几篇多是 Agent 工程与组织转型的实操：探月学校十年教育反思、TypeScript 运行时守卫、Codex 负责人谈品味、晚点聊 Q2 AI 季报、微软「前沿公司」、时间序列 LLM、RAG 问题解析，按兴趣挑读即可。其中晚点聊的 RSI / 递归自进化主题和精讲三的 autoresearch 正好呼应，微软「前沿公司」的「学习循环」叙事则把精讲二、精讲三的 loop 概念卖给了企业客户，连起来看会更立体。

## ★ 精讲一：相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么

给不太关注 Agent 框架生态的读者先补一句背景：过去两年，LangGraph 讲 Checkpoint，OpenAI 讲 Thread 和 Run，A2A 讲 Task，AG-UI 讲 Event，Deep Agents 又引入 Todo、Subagent 和 Virtual Filesystem--名字越来越多，API 越来越像一套套独立世界观。作者不想每换一个框架就重新学习一套对象体系，于是换了个问法：跨框架反复出现的稳定边界到底是什么。

文章的核心动作，是用 Protocol 视角把 Agent Runtime 拆成 6 个稳定对象：Thread / Session（一段长期上下文）、Run / Task（一次具体执行）、Step（可观测步骤）、Event（进展变化）、Artifact（正式产物）、Checkpoint（可恢复快照）。围绕这 6 个对象，生产级 Agent Protocol 还要能表达 stream / interrupt / resume / cancel / retry 这些生命周期操作。作者把讨论分成三层--具体协议标准（A2A、AG-UI、LangChain Agent Protocol 等）、通用协议对象、Runtime 实现能力--并明确本文重点在第二层。一句凝练的概括是：Protocol 是 Runtime 的外部边界，Runtime 是 Protocol 的内部实现。

几个值得记的判断：第一，Agent Runtime 的核心不是模型调用，而是任务生命周期管理--Runtime 至少要管生命周期、上下文、调度、控制面（权限、Guardrail、取消、超时、预算、并发）、数据面（状态快照、事件流、Trace、Artifact、成本数据）这五类事；第二，真正区分玩具 Agent 和生产 Agent 的，是状态持久化、中断恢复、可观测性和可评测性--状态持久化是那条分水岭，没有 Checkpoint 就没法定义超时、取消、Trace、成本和最终结果；第三，Error-as-Data 优于 Error-as-Exception，把错误当成数据流的一部分而非抛异常打断执行，这样才能让中断和恢复有干净的状态可续；第四，MCP 让工具层最有可能先标准化，因为工具协议比执行模型更容易收敛。文中那张详尽的跨框架映射表，把 LangGraph、OpenAI Assistants、A2A、AG-UI、Deep Agents 等框架的名词逐一对应到这 6 个对象上，是做 Agent 系统设计时可以直接拿来对照的清单--下次再看到新框架，先拿这张表过一遍，就能很快判断它新在哪里、又解决了哪个老问题。

为什么值得读？因为它给了一个稳定的评估坐标系。每出一个新框架，你都可以快速判断：它只是换了一套 API 名字，还是解决了一个真实的 Runtime 问题？它强化的是执行模型、状态管理、工具协议，还是流式事件？它是把底层能力暴露出来，还是把一整套长任务 Agent 能力封装成开箱即用的 harness？这种判断力，比记住任何一个框架的 API 都耐用。

把这篇放在第一篇，是因为它给后面两篇定了坐标系：精讲二讲的是把这些 Runtime 能力打包成易用默认体验的工程范式（Harness），精讲三讲的是在 Runtime 之上再叠一层让系统自我改进的外环（Loop）。读完这篇再看后两篇，能更清楚地看到「协议对象-工程范式-反馈外环」是怎么一层层垒起来的。如果你正在做 Agent 系统设计或技术选型，这篇是今天的入口，尤其推荐把跨框架映射表收进自己的笔记。详见

## ★ 精讲二：Loop Engineering 又是啥？一文讲清企业 Agent 落地的四层工程进化论

先说这篇文章要解决的问题。2026 年几乎每家企业都在谈 AI Agent，常见的剧本是：团队花三周搭了个原型，接了内部知识库，Demo 看起来像那么回事；上线两周后，Agent 把客户订单张冠李戴、把合同条款搞混、凌晨三点自动发了封莫名其妙的邮件。作者的诊断很直接：模型智能早已不是瓶颈，问题在于团队在用 Demo 阶段的工程方法论，去解决生产阶段的系统问题。

文章把过去四年 AI 工程的范式迁移拆成四层：L1 Prompt Engineering（说清楚任务）、L2 Context Engineering（提供正确背景）、L3 Harness Engineering（搭好执行支架）、L4 Loop Engineering（设计让 Agent 持续自主完成目标的循环）。每一层都解决了上一层留下的核心瓶颈，但也引入新的工程挑战：L1 解决模型的「听话问题」，却突破不了信息孤岛、无记忆、人是瓶颈这三个天花板；L2 把 Agent 从「通用对话」变成「业务助手」，靠 RAG、MCP、消息历史管理、工具 schema 精简来策划最优 token 集，对抗 Anthropic 提出的「Context Rot」（上下文腐烂）；L3 把模型调用之外的那层执行系统搭稳，接管循环、工具执行、Handoff、Session、Guardrail、Tracing；L4 则让你从「prompt Agent 的人」变成「设计那个 prompt Agent 的系统的人」。

最关键的一个认知是：这四层是嵌套关系，不是替代关系--Context 包含 Prompt，Harness 包含 Context，Loop 包含以上所有。外层不取消内层，而是在内层基础上增加新的工程维度；如果 prompt 模糊、context 混乱，再好的 harness 也救不回来。文中那个常见的误区--「现在都 2026 年了，还搞 Prompt Engineering？应该搞 Harness Engineering 了」--作者明确说是错的，正确的姿势是看清自己卡在哪一层，把内层补扎实再往外走。文中引述了三个标志性表态：Mitchell Hashimoto 在 2026 年 2 月提出「engineer the harness」，Boris Cherny（Anthropic Claude Code 负责人）在 6 月说「我不再 prompt Claude 了，我设计循环来 prompt Claude」，以及 OpenAI 用 Codex 在五个月内构建约一百万行代码、零行手写的案例。

作者的判断很有分寸感：2026 年大多数企业应全力投入 L3，跳过 L3 直接搞 L4 是最危险的错误。理由是 L4 的 Loop 是在 L3 的 Harness 之上运行的，底层 harness 不稳，loop 放大的是错误而不是能力。同时他也诚实列出 Loop 引入的新风险--成本不可预测、认知投降（把判断权过度让渡给系统）、以及 feedback signal 设计不当会让 agent 用更多 slop 而非更好结果来交差。

为什么值得读？因为它给了技术负责人一个清晰的「该在哪层投入」的判断框架，而不是一句口号式的「上 Loop」。对大多数还在 L1/L2 徘徊的企业，这篇文章点出了真正的瓶颈和下一步；对已经在 L3 的团队，它把 L4 的前提条件和风险讲得很实在。它和精讲一的关系是：精讲一讲的是 Runtime 这层该有哪些协议对象和能力，这篇讲的是怎么用工程范式把这些能力组织成可上线的产品；它和精讲三的关系是，L4 的 Loop 在精讲三里被具体化成「autoresearch」的三种落地模式。如果你是企业 Agent 落地的技术负责人，这篇值得精读。详见

## ★ 精讲三：Autoresearch：自我改进智能体背后的反馈循环

先解释一下「autoresearch」这个词。它是这届 AI Engineer World's Fair 上的一个热词，大意是构建一个 outer loop，让 agent 帮忙维护和改进主系统本身--用反馈信号、评测和人类输入，让系统随时间变得更好。这篇是 Latent.Space 对 Introspection 创始人 Roland Gavrilescu 的访谈，他此前在 xAI 做 agent 基础设施，离开后创办了这家专注「自我改进系统」基础设施的公司。

访谈的核心，是 Introspection 提出的三种模式。第一种是「the loop is the product」--行业的焦点已经从模型、到 harness、再到 loop，关键问题是你能不能定义正确的反馈机制，让 agent 在不制造更多 slop 的前提下承担更多工作。这一点和 Cursor、Cognition 这类公司已经验证过的路径一致：产品能跑起来，下一阶段是让它更易得、更快、更便宜。第二种是「agent recipe」--一个比 tool、比 skill 更大的容器，把 evals、judges、信号处理和回流信息打包成一种可移植的格式，让 agent 像在一个小型研究室里那样迭代，并且与 provider 解耦；这个概念部分借鉴了模型 post-training 里的 data recipe（描述不同领域数据该以多少比例烘进一个模型）。目标是让 recipe 成为 agent 可以反复迭代的对象，而不是每次都从零搭起。第三种是关于「优化什么」--如何让系统随时间变得既更好又更便宜，把前沿模型的能力逐步蒸馏进你自己拥有、为你环境定制的系统里。他还区分了与用户交互的 inner loop 和负责研究维护的 outer loop：前者是产品本身，后者是让产品持续变好的那层基础设施，两者不能混在一起设计。

对工程师，他给了一个三步上手的建议：先建立 signals（系统哪里做得好、哪里差），再做成本控制，然后持续跟随研究--把产品组织变成一个个微型研究室。这个建议很朴素，但点出了 autoresearch 落地的真实门槛：不是模型够不够强，而是你能不能设计出对的信号和反馈机制，让 agent 改进系统而不是制造噪音。

为什么值得读？因为它把精讲二里的 L4 Loop 讲到了具体形态--loop 不是一个抽象口号，而是 signals + recipe + 成本优化的组合工程。它也回应了精讲一的隐含前提：要让 outer loop 稳定运行，底层的 Runtime 协议对象（Run、Step、Event、Artifact、Checkpoint）必须可靠，否则反馈信号本身就没法采集和审计。如果你在关注 self-improving agent 的落地，或者在做需要持续评测和改进的 Agent 系统，这篇访谈值得细读。详见

## 速览

探月校长王熙乔：AI 时代的教育者，与人类文明的下一步。

硅谷 101 这期深度访谈探月学校创始人王熙乔，回顾他从 18 岁预判 AI 冲击教育、到创办学校、经历扩张自大与疫情流浪、最终转向非营利的十年。最值得想的是他从 2014、2015 年就开始琢磨的那个问题：当 AI 可以替代人类的大部分能力，我们终究该培养什么样的人。探月把培养目标定为「内心丰盈的个体，积极行动的公民」，价值观凝练成「善及万物、探求真理、坚毅笃行」。访谈里几个反直觉的细节挺有意思：学校是倒三角结构，高中生反而比小学生多，这跟探月最早只做高中、2022 年才接手清华附中国际学校的小学初中有关；陈广宇爆火后，Jason 的反应是「按照自己的节奏做原本就规划要做的事」。十年过去，他当年写的预判几乎都在兑现，而首批进探月的学生这两年大学毕业进入职场，开始在全球科技圈初露头角，也让大企业 HR 和顶级风投把目光投向这批学生。如果你关心 AI 时代的教育与人的成长，这期值得听。详见

四个 TypeScript 守卫工具，挡住不安全数据带来的崩溃。

freeCodeCamp 这篇讲的是一个很常见但很少被认真处理的 bug：API 返回的字段在开发环境一切正常，到了生产却变成 null 或 undefined，于是 UI 崩溃，或者更糟，静默的数据损坏没人发现直到用户投诉。作者的解法是四个框架无关的小工具--safeArray、safeString、safeNumber、safeObject--在运行时验证外部数据。它不需要第三方库，也不需要架构重构，只需要一点纪律性：在数据进入应用的关键边界处（API 响应、用户输入、第三方回调、本地存储读取）用上它们，给每个字段一个安全的兜底默认值。文章还讲了一些值得记的最佳实践和要避免的反模式，最后附了一个把它们组合成 safeData helper 的进阶用法，可以一次性校验一整块嵌套数据。这种「在边界处守卫」的思路，和今天精讲一里 Error-as-Data、精讲七 RAG 里每一步都留类型化痕迹的思路其实是相通的：把不可信数据挡在系统外，而不是让它在内部一路裸奔。适合前端和全栈工程师收进自己的工具箱。详见

Codex 负责人：「所有人都是 builder」是个很糟糕的主意。

OpenAI Codex 团队负责人 Andrew Ambrosino 在与 Lenny 的对谈里，给出了一个反共识的判断：当 AI 大幅压低实现成本后，产品开发里最稀缺的资源不再是技术能力，而是品味（taste）。他描述了 OpenAI 内部的真实状态--公司里同时有 90 个未协调的小团队在做同一个功能，难题不再是「能不能做出来」，而是「该不该做、怎么定义、开关里该有几个选项」。Codex 团队招人的硬标准之一就是品味：能从海量内容里分辨信号与噪音，在「拥有无限 tokens」的世界里不生产垃圾。他还有一个值得琢磨的看法：实现成本下降后，产品流程整个倒过来了--以前是先调研、出文档、做原型再开发，因为原型比开发便宜；现在任何人都能搭出任何功能，反而要在一堆原型里做选择，所以「PRD 已死，原型当道」这种说法他并不同意，文档和判断的角色其实更重要了。他也提醒，不要轻易判定一个功能不好--Codex 如果早三个月发布会彻底失败，唯一的变量是模型进步了。适合关注 AI 时代产品管理与组织协作的读者。详见

晚点聊 AI 季报 26Q2：从 coding 到 RSI，强者愈强？

晚点聊这期请来 MoE Capital 创始合伙人 Henry Yin，沿两条脉络复盘 2026 年 Q2 的 AI 进展。一条是推进智能前沿：OpenAI 与 Anthropic 的模型竞争、coding Agent 份额与价格战、RSI（递归自进化）在 Q2 的大热与 Anthropic 长文《When AI builds itself》、Recursive Superintelligence 6 月中旬拿出的第一批具体成果，以及 OpenAI 官宣 Robotics 团队和物理 AI 的动向--行业里也传言 Anthropic 在考虑这个方向。另一条是智能的扩散：更多企业客户想要自己的模型，成为 Fireworks、Applied Compute 与智谱 GLM 等公司的共同机会；交互创新上出现了 Record and Replay、Claude Tag、Thinking Machines Lab 的流式语音模型。最后还聊了 Google、Meta、xAI 的近况，以及 Midjourney 居然做起了超声波医学影像设备，创始人 Holz 说起新业务时甚至说「我们还没用到 AI」。和今天精讲三的 autoresearch 主题正好呼应，想理解 RSI / 自进化大图景的读者可以连着听。详见

萨提亚·纳德拉宣布微软「前沿公司」计划。

微软 CEO 萨提亚·纳德拉在推文中阐述了「前沿公司」（frontier firm）计划的愿景：通过把知识、工作流程和判断力转化为持续改进的 AI 系统，帮助每家企业构建自有的 AI 能力，并将其描述为人力资本与代币资本复利增长的学习循环。这条推和今天精讲二、精讲三的关系很直接--「学习循环」「持续改进」正是 Loop Engineering 和 autoresearch 想回答的问题，只不过微软把它包装成了面向企业客户的现成产品叙事，把整套反馈外环的工程问题变成了一个可以采购的承诺。想看大厂怎么把 outer loop 卖给企业客户，可以读原文。详见

时间序列 LLM 原理解析：以 t0-alpha 为例。

Towards Data Science 这篇用 The Forecasting Company 6 月开源的 t0-alpha（102M 参数）为例，讲清楚时间序列基础模型的工作原理。它的基本配方和语言建模很像：把数值序列切成 patches，用 causal transformer 处理这些 patches，输出的是分位数而不是单条未来曲线。作者重跑了 GIFT-Eval 基准，t0-alpha 复现了官方的头条数字：CRPS 0.4941、MASE 0.7240。文章还讨论了这类模型当前的优势和未来提升方向。适合想具体理解时间序列 LLM 内部机制的工程师读，模型小到能在单张中端 GPU 上跑。详见

RAG 问题解析被忽视的教训：在搜索之前先建结构。

这篇来自 Towards Data Science，立场很明确：用户问题不是搜索查询。把原始字符串直接送向量化、cosine 跑 top-k、然后把结果丢给模型，正是 RAG 在生产里「悄悄坏掉」的常见原因--会出现静默的部分答案，而且没人知道答案是从哪段文档来的、是不是答非所问。作者主张在检索之前，先把问题结构化成类型化的关系数据（一个带 brief 的 question_df 行），让下游知道问题有几个部分、用户要的是精确值还是一段描述、要不要跨文档关联。文章配了 GitHub 上可运行的 notebook，可以照着复跑。和精讲一里 Error-as-Data、可观测性的思路相通：每一步都留下类型化、可审计的痕迹。适合正在搭 RAG 管道、想让每步可审计成本可控的工程师。详见

## 补充阅读

- Amazon SageMaker AI 中多轮强化学习的最佳实践：AWS 这篇讲在 SageMaker AI 里训练多轮 agent 时，环境设计、奖励函数、外部评估、多轮管理这几个决定成败的环节。核心提醒是--agent 行动空间越大，钻奖励空子的方式就越多，训练环境会悄悄腐蚀训练信号。做 agentic RL 的工程师可以当 checklist 读。详见

- GitHub 如何利用密钥扫描实现「收件箱清零」：GitHub 安全团队分享如何在九个月内把 15000+ 仓库里的 20000+ 条密钥扫描告警降到零。方法不复杂--分阶段启用、验证、所有权映射、问责制--但执行细节真实，适合做平台安全和治理的团队参考。详见

- 一个 Transformer 层就够？训练单层可媲美全参数 RL：这篇系统地证明，训练单个 Transformer 层就能恢复全参数 RL 后训练的大部分收益，且贡献集中在中间层。结论反直觉但对算力受限的 RL 后训练很有价值，做模型训练的研究者和工程师会感兴趣。详见

- Netflix 基于服务级别优先级的负载丢弃策略：Netflix 工程师介绍在流量高峰期优先丢弃低优先级请求、保护关键用户请求的方案，并附了真实数据与实现细节。做高可用系统和过载保护的工程师可以直接借鉴。详见

- 把 AI 编程的混乱转化为可复制的实战手册：Snowflake 工程高级副总裁分享规模化应用 coding agent 的系统化方法--从无约束探索，到沉淀出 14 种 AI 设计模式、推行「聚焦周」，再到把发布验证周期从 15 天压到 1 天的成熟度模型。和精讲二的 Harness/Loop 思路能对上，适合在工程组织里推 AI 编程的负责人读。详见

- Senior SWE-Bench：像考察资深工程师那样考察 Agent：这个新基准专门评估 AI 编程 agent 在真实、需求未明确指定的任务上的表现--需要资深工程师的判断力和运行时调查能力，而不是过度规格化的需求。它还引入了一个 validation agent，用专家设计的 recipe 写自适应的行为测试。做 agent 评测的读者值得关注。详见

## 今日阅读路径

如果你今天时间有限，建议按这个顺序读三篇。先读精讲一「相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么」，建立 6 个协议对象和「状态持久化是分水岭」的坐标系；再读精讲二「Loop Engineering 又是啥」，看 Prompt / Context / Harness / Loop 四层怎么嵌套，以及为什么跳过 L3 直接做 L4 最危险；最后读精讲三「Autoresearch」，看自我改进的 outer loop 在生产里到底长什么样。三篇读完后，再挑一两篇速览（做前端选 TypeScript 守卫，做 RAG 选问题解析，关注行业大局选晚点聊季报）作为延伸即可。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。
