Agent工程底层问题:协议对象、四层嵌套、自我改进外环 · AI HOT
ginobefun @hongming731 50
2026-07-03 07:32 ·2小时前
AI 摘要 BestBlogs早报07-03聚焦Agent工程底层问题。精讲一用Protocol视角将Agent Runtime拆解为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产的分水岭。精讲二提出AI工程范式的四层嵌套结构:Prompt→Context→Harness→Loop,指出2026年企业应全力投入L3,跳过L3直接做L4是最危险错误。精讲三介绍outer loop让agent持续改进主系统本身。三篇共同追问“哪些问题不会消失”,提供比追逐框架更耐用的评估坐标系。
ginobefun @hongming731 · X 2026-07-03 07:32 · 2小时前
在 X 看原推 · x.com AI 摘要 BestBlogs早报07-03聚焦Agent工程底层问题。精讲一用Protocol视角将Agent Runtime拆解为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产的分水岭。精讲二提出AI工程范式的四层嵌套结构:Prompt→Context→Harness→Loop,指出2026年企业应全力投入L3,跳过L3直接做L4是最危险错误。精讲三介绍outer loop让agent持续改进主系统本身。三篇共同追问“哪些问题不会消失”,提供比追逐框架更耐用的评估坐标系。
为什么值得读?因为它给了一个稳定的评估坐标系。每出一个新框架,你都可以快速判断:它只是换了一套 API 名字,还是解决了一个真实的 Runtime 问题?它强化的是执行模型、状态管理、工具协议,还是流式事件?它是把底层能力暴露出来,还是把一整套长任务 Agent 能力封装成开箱即用的 harness?这种判断力,比记住任何一个框架的 API 都耐用。
把这篇放在第一篇,是因为它给后面两篇定了坐标系:精讲二讲的是把这些 Runtime 能力打包成易用默认体验的工程范式(Harness),精讲三讲的是在 Runtime 之上再叠一层让系统自我改进的外环(Loop)。读完这篇再看后两篇,能更清楚地看到「协议对象-工程范式-反馈外环」是怎么一层层垒起来的。如果你正在做 Agent 系统设计或技术选型,这篇是今天的入口,尤其推荐把跨框架映射表收进自己的笔记。详见
★ 精讲二:Loop Engineering 又是啥?一文讲清企业 Agent 落地的四层工程进化论 先说这篇文章要解决的问题。2026 年几乎每家企业都在谈 AI Agent,常见的剧本是:团队花三周搭了个原型,接了内部知识库,Demo 看起来像那么回事;上线两周后,Agent 把客户订单张冠李戴、把合同条款搞混、凌晨三点自动发了封莫名其妙的邮件。作者的诊断很直接:模型智能早已不是瓶颈,问题在于团队在用 Demo 阶段的工程方法论,去解决生产阶段的系统问题。
文章把过去四年 AI 工程的范式迁移拆成四层:L1 Prompt Engineering(说清楚任务)、L2 Context Engineering(提供正确背景)、L3 Harness Engineering(搭好执行支架)、L4 Loop Engineering(设计让 Agent 持续自主完成目标的循环)。每一层都解决了上一层留下的核心瓶颈,但也引入新的工程挑战:L1 解决模型的「听话问题」,却突破不了信息孤岛、无记忆、人是瓶颈这三个天花板;L2 把 Agent 从「通用对话」变成「业务助手」,靠 RAG、MCP、消息历史管理、工具 schema 精简来策划最优 token 集,对抗 Anthropic 提出的「Context Rot」(上下文腐烂);L3 把模型调用之外的那层执行系统搭稳,接管循环、工具执行、Handoff、Session、Guardrail、Tracing;L4 则让你从「prompt Agent 的人」变成「设计那个 prompt Agent 的系统的人」。
最关键的一个认知是:这四层是嵌套关系,不是替代关系--Context 包含 Prompt,Harness 包含 Context,Loop 包含以上所有。外层不取消内层,而是在内层基础上增加新的工程维度;如果 prompt 模糊、context 混乱,再好的 harness 也救不回来。文中那个常见的误区--「现在都 2026 年了,还搞 Prompt Engineering?应该搞 Harness Engineering 了」--作者明确说是错的,正确的姿势是看清自己卡在哪一层,把内层补扎实再往外走。文中引述了三个标志性表态:Mitchell Hashimoto 在 2026 年 2 月提出「engineer the harness」,Boris Cherny(Anthropic Claude Code 负责人)在 6 月说「我不再 prompt Claude 了,我设计循环来 prompt Claude」,以及 OpenAI 用 Codex 在五个月内构建约一百万行代码、零行手写的案例。
作者的判断很有分寸感:2026 年大多数企业应全力投入 L3,跳过 L3 直接搞 L4 是最危险的错误。理由是 L4 的 Loop 是在 L3 的 Harness 之上运行的,底层 harness 不稳,loop 放大的是错误而不是能力。同时他也诚实列出 Loop 引入的新风险--成本不可预测、认知投降(把判断权过度让渡给系统)、以及 feedback signal 设计不当会让 agent 用更多 slop 而非更好结果来交差。
为什么值得读?因为它给了技术负责人一个清晰的「该在哪层投入」的判断框架,而不是一句口号式的「上 Loop」。对大多数还在 L1/L2 徘徊的企业,这篇文章点出了真正的瓶颈和下一步;对已经在 L3 的团队,它把 L4 的前提条件和风险讲得很实在。它和精讲一的关系是:精讲一讲的是 Runtime 这层该有哪些协议对象和能力,这篇讲的是怎么用工程范式把这些能力组织成可上线的产品;它和精讲三的关系是,L4 的 Loop 在精讲三里被具体化成「autoresearch」的三种落地模式。如果你是企业 Agent 落地的技术负责人,这篇值得精读。详见
★ 精讲三:Autoresearch:自我改进智能体背后的反馈循环 先解释一下「autoresearch」这个词。它是这届 AI Engineer World's Fair 上的一个热词,大意是构建一个 outer loop,让 agent 帮忙维护和改进主系统本身--用反馈信号、评测和人类输入,让系统随时间变得更好。这篇是 Latent.Space 对 Introspection 创始人 Roland Gavrilescu 的访谈,他此前在 xAI 做 agent 基础设施,离开后创办了这家专注「自我改进系统」基础设施的公司。
访谈的核心,是 Introspection 提出的三种模式。第一种是「the loop is the product」--行业的焦点已经从模型、到 harness、再到 loop,关键问题是你能不能定义正确的反馈机制,让 agent 在不制造更多 slop 的前提下承担更多工作。这一点和 Cursor、Cognition 这类公司已经验证过的路径一致:产品能跑起来,下一阶段是让它更易得、更快、更便宜。第二种是「agent recipe」--一个比 tool、比 skill 更大的容器,把 evals、judges、信号处理和回流信息打包成一种可移植的格式,让 agent 像在一个小型研究室里那样迭代,并且与 provider 解耦;这个概念部分借鉴了模型 post-training 里的 data recipe(描述不同领域数据该以多少比例烘进一个模型)。目标是让 recipe 成为 agent 可以反复迭代的对象,而不是每次都从零搭起。第三种是关于「优化什么」--如何让系统随时间变得既更好又更便宜,把前沿模型的能力逐步蒸馏进你自己拥有、为你环境定制的系统里。他还区分了与用户交互的 inner loop 和负责研究维护的 outer loop:前者是产品本身,后者是让产品持续变好的那层基础设施,两者不能混在一起设计。
对工程师,他给了一个三步上手的建议:先建立 signals(系统哪里做得好、哪里差),再做成本控制,然后持续跟随研究--把产品组织变成一个个微型研究室。这个建议很朴素,但点出了 autoresearch 落地的真实门槛:不是模型够不够强,而是你能不能设计出对的信号和反馈机制,让 agent 改进系统而不是制造噪音。
为什么值得读?因为它把精讲二里的 L4 Loop 讲到了具体形态--loop 不是一个抽象口号,而是 signals + recipe + 成本优化的组合工程。它也回应了精讲一的隐含前提:要让 outer loop 稳定运行,底层的 Runtime 协议对象(Run、Step、Event、Artifact、Checkpoint)必须可靠,否则反馈信号本身就没法采集和审计。如果你在关注 self-improving agent 的落地,或者在做需要持续评测和改进的 Agent 系统,这篇访谈值得细读。详见
速览 探月校长王熙乔:AI 时代的教育者,与人类文明的下一步。
硅谷 101 这期深度访谈探月学校创始人王熙乔,回顾他从 18 岁预判 AI 冲击教育、到创办学校、经历扩张自大与疫情流浪、最终转向非营利的十年。最值得想的是他从 2014、2015 年就开始琢磨的那个问题:当 AI 可以替代人类的大部分能力,我们终究该培养什么样的人。探月把培养目标定为「内心丰盈的个体,积极行动的公民」,价值观凝练成「善及万物、探求真理、坚毅笃行」。访谈里几个反直觉的细节挺有意思:学校是倒三角结构,高中生反而比小学生多,这跟探月最早只做高中、2022 年才接手清华附中国际学校的小学初中有关;陈广宇爆火后,Jason 的反应是「按照自己的节奏做原本就规划要做的事」。十年过去,他当年写的预判几乎都在兑现,而首批进探月的学生这两年大学毕业进入职场,开始在全球科技圈初露头角,也让大企业 HR 和顶级风投把目光投向这批学生。如果你关心 AI 时代的教育与人的成长,这期值得听。详见
四个 TypeScript 守卫工具,挡住不安全数据带来的崩溃。
freeCodeCamp 这篇讲的是一个很常见但很少被认真处理的 bug:API 返回的字段在开发环境一切正常,到了生产却变成 null 或 undefined,于是 UI 崩溃,或者更糟,静默的数据损坏没人发现直到用户投诉。作者的解法是四个框架无关的小工具--safeArray、safeString、safeNumber、safeObject--在运行时验证外部数据。它不需要第三方库,也不需要架构重构,只需要一点纪律性:在数据进入应用的关键边界处(API 响应、用户输入、第三方回调、本地存储读取)用上它们,给每个字段一个安全的兜底默认值。文章还讲了一些值得记的最佳实践和要避免的反模式,最后附了一个把它们组合成 safeData helper 的进阶用法,可以一次性校验一整块嵌套数据。这种「在边界处守卫」的思路,和今天精讲一里 Error-as-Data、精讲七 RAG 里每一步都留类型化痕迹的思路其实是相通的:把不可信数据挡在系统外,而不是让它在内部一路裸奔。适合前端和全栈工程师收进自己的工具箱。详见
Codex 负责人:「所有人都是 builder」是个很糟糕的主意。
OpenAI Codex 团队负责人 Andrew Ambrosino 在与 Lenny 的对谈里,给出了一个反共识的判断:当 AI 大幅压低实现成本后,产品开发里最稀缺的资源不再是技术能力,而是品味(taste)。他描述了 OpenAI 内部的真实状态--公司里同时有 90 个未协调的小团队在做同一个功能,难题不再是「能不能做出来」,而是「该不该做、怎么定义、开关里该有几个选项」。Codex 团队招人的硬标准之一就是品味:能从海量内容里分辨信号与噪音,在「拥有无限 tokens」的世界里不生产垃圾。他还有一个值得琢磨的看法:实现成本下降后,产品流程整个倒过来了--以前是先调研、出文档、做原型再开发,因为原型比开发便宜;现在任何人都能搭出任何功能,反而要在一堆原型里做选择,所以「PRD 已死,原型当道」这种说法他并不同意,文档和判断的角色其实更重要了。他也提醒,不要轻易判定一个功能不好--Codex 如果早三个月发布会彻底失败,唯一的变量是模型进步了。适合关注 AI 时代产品管理与组织协作的读者。详见
晚点聊 AI 季报 26Q2:从 coding 到 RSI,强者愈强?
晚点聊这期请来 MoE Capital 创始合伙人 Henry Yin,沿两条脉络复盘 2026 年 Q2 的 AI 进展。一条是推进智能前沿:OpenAI 与 Anthropic 的模型竞争、coding Agent 份额与价格战、RSI(递归自进化)在 Q2 的大热与 Anthropic 长文《When AI builds itself》、Recursive Superintelligence 6 月中旬拿出的第一批具体成果,以及 OpenAI 官宣 Robotics 团队和物理 AI 的动向--行业里也传言 Anthropic 在考虑这个方向。另一条是智能的扩散:更多企业客户想要自己的模型,成为 Fireworks、Applied Compute 与智谱 GLM 等公司的共同机会;交互创新上出现了 Record and Replay、Claude Tag、Thinking Machines Lab 的流式语音模型。最后还聊了 Google、Meta、xAI 的近况,以及 Midjourney 居然做起了超声波医学影像设备,创始人 Holz 说起新业务时甚至说「我们还没用到 AI」。和今天精讲三的 autoresearch 主题正好呼应,想理解 RSI / 自进化大图景的读者可以连着听。详见
微软 CEO 萨提亚·纳德拉在推文中阐述了「前沿公司」(frontier firm)计划的愿景:通过把知识、工作流程和判断力转化为持续改进的 AI 系统,帮助每家企业构建自有的 AI 能力,并将其描述为人力资本与代币资本复利增长的学习循环。这条推和今天精讲二、精讲三的关系很直接--「学习循环」「持续改进」正是 Loop Engineering 和 autoresearch 想回答的问题,只不过微软把它包装成了面向企业客户的现成产品叙事,把整套反馈外环的工程问题变成了一个可以采购的承诺。想看大厂怎么把 outer loop 卖给企业客户,可以读原文。详见
时间序列 LLM 原理解析:以 t0-alpha 为例。
Towards Data Science 这篇用 The Forecasting Company 6 月开源的 t0-alpha(102M 参数)为例,讲清楚时间序列基础模型的工作原理。它的基本配方和语言建模很像:把数值序列切成 patches,用 causal transformer 处理这些 patches,输出的是分位数而不是单条未来曲线。作者重跑了 GIFT-Eval 基准,t0-alpha 复现了官方的头条数字:CRPS 0.4941、MASE 0.7240。文章还讨论了这类模型当前的优势和未来提升方向。适合想具体理解时间序列 LLM 内部机制的工程师读,模型小到能在单张中端 GPU 上跑。详见
RAG 问题解析被忽视的教训:在搜索之前先建结构。
这篇来自 Towards Data Science,立场很明确:用户问题不是搜索查询。把原始字符串直接送向量化、cosine 跑 top-k、然后把结果丢给模型,正是 RAG 在生产里「悄悄坏掉」的常见原因--会出现静默的部分答案,而且没人知道答案是从哪段文档来的、是不是答非所问。作者主张在检索之前,先把问题结构化成类型化的关系数据(一个带 brief 的 question_df 行),让下游知道问题有几个部分、用户要的是精确值还是一段描述、要不要跨文档关联。文章配了 GitHub 上可运行的 notebook,可以照着复跑。和精讲一里 Error-as-Data、可观测性的思路相通:每一步都留下类型化、可审计的痕迹。适合正在搭 RAG 管道、想让每步可审计成本可控的工程师。详见
补充阅读 Amazon SageMaker AI 中多轮强化学习的最佳实践:AWS 这篇讲在 SageMaker AI 里训练多轮 agent 时,环境设计、奖励函数、外部评估、多轮管理这几个决定成败的环节。核心提醒是--agent 行动空间越大,钻奖励空子的方式就越多,训练环境会悄悄腐蚀训练信号。做 agentic RL 的工程师可以当 checklist 读。详见 GitHub 如何利用密钥扫描实现「收件箱清零」:GitHub 安全团队分享如何在九个月内把 15000+ 仓库里的 20000+ 条密钥扫描告警降到零。方法不复杂--分阶段启用、验证、所有权映射、问责制--但执行细节真实,适合做平台安全和治理的团队参考。详见 一个 Transformer 层就够?训练单层可媲美全参数 RL:这篇系统地证明,训练单个 Transformer 层就能恢复全参数 RL 后训练的大部分收益,且贡献集中在中间层。结论反直觉但对算力受限的 RL 后训练很有价值,做模型训练的研究者和工程师会感兴趣。详见 Netflix 基于服务级别优先级的负载丢弃策略:Netflix 工程师介绍在流量高峰期优先丢弃低优先级请求、保护关键用户请求的方案,并附了真实数据与实现细节。做高可用系统和过载保护的工程师可以直接借鉴。详见 把 AI 编程的混乱转化为可复制的实战手册:Snowflake 工程高级副总裁分享规模化应用 coding agent 的系统化方法--从无约束探索,到沉淀出 14 种 AI 设计模式、推行「聚焦周」,再到把发布验证周期从 15 天压到 1 天的成熟度模型。和精讲二的 Harness/Loop 思路能对上,适合在工程组织里推 AI 编程的负责人读。详见 Senior SWE-Bench:像考察资深工程师那样考察 Agent:这个新基准专门评估 AI 编程 agent 在真实、需求未明确指定的任务上的表现--需要资深工程师的判断力和运行时调查能力,而不是过度规格化的需求。它还引入了一个 validation agent,用专家设计的 recipe 写自适应的行为测试。做 agent 评测的读者值得关注。详见
今日阅读路径 如果你今天时间有限,建议按这个顺序读三篇。先读精讲一「相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么」,建立 6 个协议对象和「状态持久化是分水岭」的坐标系;再读精讲二「Loop Engineering 又是啥」,看 Prompt / Context / Harness / Loop 四层怎么嵌套,以及为什么跳过 L3 直接做 L4 最危险;最后读精讲三「Autoresearch」,看自我改进的 outer loop 在生产里到底长什么样。三篇读完后,再挑一两篇速览(做前端选 TypeScript 守卫,做 RAG 选问题解析,关注行业大局选晚点聊季报)作为延伸即可。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。
第三篇是 Latent.Space 对 Introspection 创始人 Roland Gavrilescu 的访谈,讲如何用 outer loop 让 agent 持续改进主系统本身。
三篇放在一起,恰好覆盖了「协议/runtime - 工程范式 - 自我改进外环」这条线索,建议连着读,对照感更强。一个共同的提问方式值得注意:三篇作者都没有去追「最新最热」的那个框架或口号,而是退一步问「哪些问题不会消失」「哪一层是必须先打牢的地基」--这种提法在框架名词越堆越多的当下,反而更耐用。
其余几篇多是 Agent 工程与组织转型的实操:探月学校十年教育反思、TypeScript 运行时守卫、Codex 负责人谈品味、晚点聊 Q2 AI 季报、微软「前沿公司」、时间序列 LLM、RAG 问题解析,按兴趣挑读即可。其中晚点聊的 RSI / 递归自进化主题和精讲三的 autoresearch 正好呼应,微软「前沿公司」的「学习循环」叙事则把精讲二、精讲三的 loop 概念卖给了企业客户,连起来看会更立体。
★ 精讲一:相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么 给不太关注 Agent 框架生态的读者先补一句背景:过去两年,LangGraph 讲 Checkpoint,OpenAI 讲 Thread 和 Run,A2A 讲 Task,AG-UI 讲 Event,Deep Agents 又引入 Todo、Subagent 和 Virtual Filesystem--名字越来越多,API 越来越像一套套独立世界观。作者不想每换一个框架就重新学习一套对象体系,于是换了个问法:跨框架反复出现的稳定边界到底是什么。
文章的核心动作,是用 Protocol 视角把 Agent Runtime 拆成 6 个稳定对象:Thread / Session(一段长期上下文)、Run / Task(一次具体执行)、Step(可观测步骤)、Event(进展变化)、Artifact(正式产物)、Checkpoint(可恢复快照)。围绕这 6 个对象,生产级 Agent Protocol 还要能表达 stream / interrupt / resume / cancel / retry 这些生命周期操作。作者把讨论分成三层--具体协议标准(A2A、AG-UI、LangChain Agent Protocol 等)、通用协议对象、Runtime 实现能力--并明确本文重点在第二层。一句凝练的概括是:Protocol 是 Runtime 的外部边界,Runtime 是 Protocol 的内部实现。
几个值得记的判断:第一,Agent Runtime 的核心不是模型调用,而是任务生命周期管理--Runtime 至少要管生命周期、上下文、调度、控制面(权限、Guardrail、取消、超时、预算、并发)、数据面(状态快照、事件流、Trace、Artifact、成本数据)这五类事;第二,真正区分玩具 Agent 和生产 Agent 的,是状态持久化、中断恢复、可观测性和可评测性--状态持久化是那条分水岭,没有 Checkpoint 就没法定义超时、取消、Trace、成本和最终结果;第三,Error-as-Data 优于 Error-as-Exception,把错误当成数据流的一部分而非抛异常打断执行,这样才能让中断和恢复有干净的状态可续;第四,MCP 让工具层最有可能先标准化,因为工具协议比执行模型更容易收敛。文中那张详尽的跨框架映射表,把 LangGraph、OpenAI Assistants、A2A、AG-UI、Deep Agents 等框架的名词逐一对应到这 6 个对象上,是做 Agent 系统设计时可以直接拿来对照的清单--下次再看到新框架,先拿这张表过一遍,就能很快判断它新在哪里、又解决了哪个老问题。
为什么值得读?因为它给了一个稳定的评估坐标系。每出一个新框架,你都可以快速判断:它只是换了一套 API 名字,还是解决了一个真实的 Runtime 问题?它强化的是执行模型、状态管理、工具协议,还是流式事件?它是把底层能力暴露出来,还是把一整套长任务 Agent 能力封装成开箱即用的 harness?这种判断力,比记住任何一个框架的 API 都耐用。
把这篇放在第一篇,是因为它给后面两篇定了坐标系:精讲二讲的是把这些 Runtime 能力打包成易用默认体验的工程范式(Harness),精讲三讲的是在 Runtime 之上再叠一层让系统自我改进的外环(Loop)。读完这篇再看后两篇,能更清楚地看到「协议对象-工程范式-反馈外环」是怎么一层层垒起来的。如果你正在做 Agent 系统设计或技术选型,这篇是今天的入口,尤其推荐把跨框架映射表收进自己的笔记。详见
★ 精讲二:Loop Engineering 又是啥?一文讲清企业 Agent 落地的四层工程进化论 先说这篇文章要解决的问题。2026 年几乎每家企业都在谈 AI Agent,常见的剧本是:团队花三周搭了个原型,接了内部知识库,Demo 看起来像那么回事;上线两周后,Agent 把客户订单张冠李戴、把合同条款搞混、凌晨三点自动发了封莫名其妙的邮件。作者的诊断很直接:模型智能早已不是瓶颈,问题在于团队在用 Demo 阶段的工程方法论,去解决生产阶段的系统问题。
文章把过去四年 AI 工程的范式迁移拆成四层:L1 Prompt Engineering(说清楚任务)、L2 Context Engineering(提供正确背景)、L3 Harness Engineering(搭好执行支架)、L4 Loop Engineering(设计让 Agent 持续自主完成目标的循环)。每一层都解决了上一层留下的核心瓶颈,但也引入新的工程挑战:L1 解决模型的「听话问题」,却突破不了信息孤岛、无记忆、人是瓶颈这三个天花板;L2 把 Agent 从「通用对话」变成「业务助手」,靠 RAG、MCP、消息历史管理、工具 schema 精简来策划最优 token 集,对抗 Anthropic 提出的「Context Rot」(上下文腐烂);L3 把模型调用之外的那层执行系统搭稳,接管循环、工具执行、Handoff、Session、Guardrail、Tracing;L4 则让你从「prompt Agent 的人」变成「设计那个 prompt Agent 的系统的人」。
最关键的一个认知是:这四层是嵌套关系,不是替代关系--Context 包含 Prompt,Harness 包含 Context,Loop 包含以上所有。外层不取消内层,而是在内层基础上增加新的工程维度;如果 prompt 模糊、context 混乱,再好的 harness 也救不回来。文中那个常见的误区--「现在都 2026 年了,还搞 Prompt Engineering?应该搞 Harness Engineering 了」--作者明确说是错的,正确的姿势是看清自己卡在哪一层,把内层补扎实再往外走。文中引述了三个标志性表态:Mitchell Hashimoto 在 2026 年 2 月提出「engineer the harness」,Boris Cherny(Anthropic Claude Code 负责人)在 6 月说「我不再 prompt Claude 了,我设计循环来 prompt Claude」,以及 OpenAI 用 Codex 在五个月内构建约一百万行代码、零行手写的案例。
作者的判断很有分寸感:2026 年大多数企业应全力投入 L3,跳过 L3 直接搞 L4 是最危险的错误。理由是 L4 的 Loop 是在 L3 的 Harness 之上运行的,底层 harness 不稳,loop 放大的是错误而不是能力。同时他也诚实列出 Loop 引入的新风险--成本不可预测、认知投降(把判断权过度让渡给系统)、以及 feedback signal 设计不当会让 agent 用更多 slop 而非更好结果来交差。
为什么值得读?因为它给了技术负责人一个清晰的「该在哪层投入」的判断框架,而不是一句口号式的「上 Loop」。对大多数还在 L1/L2 徘徊的企业,这篇文章点出了真正的瓶颈和下一步;对已经在 L3 的团队,它把 L4 的前提条件和风险讲得很实在。它和精讲一的关系是:精讲一讲的是 Runtime 这层该有哪些协议对象和能力,这篇讲的是怎么用工程范式把这些能力组织成可上线的产品;它和精讲三的关系是,L4 的 Loop 在精讲三里被具体化成「autoresearch」的三种落地模式。如果你是企业 Agent 落地的技术负责人,这篇值得精读。详见
★ 精讲三:Autoresearch:自我改进智能体背后的反馈循环 先解释一下「autoresearch」这个词。它是这届 AI Engineer World's Fair 上的一个热词,大意是构建一个 outer loop,让 agent 帮忙维护和改进主系统本身--用反馈信号、评测和人类输入,让系统随时间变得更好。这篇是 Latent.Space 对 Introspection 创始人 Roland Gavrilescu 的访谈,他此前在 xAI 做 agent 基础设施,离开后创办了这家专注「自我改进系统」基础设施的公司。
访谈的核心,是 Introspection 提出的三种模式。第一种是「the loop is the product」--行业的焦点已经从模型、到 harness、再到 loop,关键问题是你能不能定义正确的反馈机制,让 agent 在不制造更多 slop 的前提下承担更多工作。这一点和 Cursor、Cognition 这类公司已经验证过的路径一致:产品能跑起来,下一阶段是让它更易得、更快、更便宜。第二种是「agent recipe」--一个比 tool、比 skill 更大的容器,把 evals、judges、信号处理和回流信息打包成一种可移植的格式,让 agent 像在一个小型研究室里那样迭代,并且与 provider 解耦;这个概念部分借鉴了模型 post-training 里的 data recipe(描述不同领域数据该以多少比例烘进一个模型)。目标是让 recipe 成为 agent 可以反复迭代的对象,而不是每次都从零搭起。第三种是关于「优化什么」--如何让系统随时间变得既更好又更便宜,把前沿模型的能力逐步蒸馏进你自己拥有、为你环境定制的系统里。他还区分了与用户交互的 inner loop 和负责研究维护的 outer loop:前者是产品本身,后者是让产品持续变好的那层基础设施,两者不能混在一起设计。
对工程师,他给了一个三步上手的建议:先建立 signals(系统哪里做得好、哪里差),再做成本控制,然后持续跟随研究--把产品组织变成一个个微型研究室。这个建议很朴素,但点出了 autoresearch 落地的真实门槛:不是模型够不够强,而是你能不能设计出对的信号和反馈机制,让 agent 改进系统而不是制造噪音。
为什么值得读?因为它把精讲二里的 L4 Loop 讲到了具体形态--loop 不是一个抽象口号,而是 signals + recipe + 成本优化的组合工程。它也回应了精讲一的隐含前提:要让 outer loop 稳定运行,底层的 Runtime 协议对象(Run、Step、Event、Artifact、Checkpoint)必须可靠,否则反馈信号本身就没法采集和审计。如果你在关注 self-improving agent 的落地,或者在做需要持续评测和改进的 Agent 系统,这篇访谈值得细读。详见
速览 探月校长王熙乔:AI 时代的教育者,与人类文明的下一步。
硅谷 101 这期深度访谈探月学校创始人王熙乔,回顾他从 18 岁预判 AI 冲击教育、到创办学校、经历扩张自大与疫情流浪、最终转向非营利的十年。最值得想的是他从 2014、2015 年就开始琢磨的那个问题:当 AI 可以替代人类的大部分能力,我们终究该培养什么样的人。探月把培养目标定为「内心丰盈的个体,积极行动的公民」,价值观凝练成「善及万物、探求真理、坚毅笃行」。访谈里几个反直觉的细节挺有意思:学校是倒三角结构,高中生反而比小学生多,这跟探月最早只做高中、2022 年才接手清华附中国际学校的小学初中有关;陈广宇爆火后,Jason 的反应是「按照自己的节奏做原本就规划要做的事」。十年过去,他当年写的预判几乎都在兑现,而首批进探月的学生这两年大学毕业进入职场,开始在全球科技圈初露头角,也让大企业 HR 和顶级风投把目光投向这批学生。如果你关心 AI 时代的教育与人的成长,这期值得听。详见
四个 TypeScript 守卫工具,挡住不安全数据带来的崩溃。
freeCodeCamp 这篇讲的是一个很常见但很少被认真处理的 bug:API 返回的字段在开发环境一切正常,到了生产却变成 null 或 undefined,于是 UI 崩溃,或者更糟,静默的数据损坏没人发现直到用户投诉。作者的解法是四个框架无关的小工具--safeArray、safeString、safeNumber、safeObject--在运行时验证外部数据。它不需要第三方库,也不需要架构重构,只需要一点纪律性:在数据进入应用的关键边界处(API 响应、用户输入、第三方回调、本地存储读取)用上它们,给每个字段一个安全的兜底默认值。文章还讲了一些值得记的最佳实践和要避免的反模式,最后附了一个把它们组合成 safeData helper 的进阶用法,可以一次性校验一整块嵌套数据。这种「在边界处守卫」的思路,和今天精讲一里 Error-as-Data、精讲七 RAG 里每一步都留类型化痕迹的思路其实是相通的:把不可信数据挡在系统外,而不是让它在内部一路裸奔。适合前端和全栈工程师收进自己的工具箱。详见
Codex 负责人:「所有人都是 builder」是个很糟糕的主意。
OpenAI Codex 团队负责人 Andrew Ambrosino 在与 Lenny 的对谈里,给出了一个反共识的判断:当 AI 大幅压低实现成本后,产品开发里最稀缺的资源不再是技术能力,而是品味(taste)。他描述了 OpenAI 内部的真实状态--公司里同时有 90 个未协调的小团队在做同一个功能,难题不再是「能不能做出来」,而是「该不该做、怎么定义、开关里该有几个选项」。Codex 团队招人的硬标准之一就是品味:能从海量内容里分辨信号与噪音,在「拥有无限 tokens」的世界里不生产垃圾。他还有一个值得琢磨的看法:实现成本下降后,产品流程整个倒过来了--以前是先调研、出文档、做原型再开发,因为原型比开发便宜;现在任何人都能搭出任何功能,反而要在一堆原型里做选择,所以「PRD 已死,原型当道」这种说法他并不同意,文档和判断的角色其实更重要了。他也提醒,不要轻易判定一个功能不好--Codex 如果早三个月发布会彻底失败,唯一的变量是模型进步了。适合关注 AI 时代产品管理与组织协作的读者。详见
晚点聊 AI 季报 26Q2:从 coding 到 RSI,强者愈强?
晚点聊这期请来 MoE Capital 创始合伙人 Henry Yin,沿两条脉络复盘 2026 年 Q2 的 AI 进展。一条是推进智能前沿:OpenAI 与 Anthropic 的模型竞争、coding Agent 份额与价格战、RSI(递归自进化)在 Q2 的大热与 Anthropic 长文《When AI builds itself》、Recursive Superintelligence 6 月中旬拿出的第一批具体成果,以及 OpenAI 官宣 Robotics 团队和物理 AI 的动向--行业里也传言 Anthropic 在考虑这个方向。另一条是智能的扩散:更多企业客户想要自己的模型,成为 Fireworks、Applied Compute 与智谱 GLM 等公司的共同机会;交互创新上出现了 Record and Replay、Claude Tag、Thinking Machines Lab 的流式语音模型。最后还聊了 Google、Meta、xAI 的近况,以及 Midjourney 居然做起了超声波医学影像设备,创始人 Holz 说起新业务时甚至说「我们还没用到 AI」。和今天精讲三的 autoresearch 主题正好呼应,想理解 RSI / 自进化大图景的读者可以连着听。详见
微软 CEO 萨提亚·纳德拉在推文中阐述了「前沿公司」(frontier firm)计划的愿景:通过把知识、工作流程和判断力转化为持续改进的 AI 系统,帮助每家企业构建自有的 AI 能力,并将其描述为人力资本与代币资本复利增长的学习循环。这条推和今天精讲二、精讲三的关系很直接--「学习循环」「持续改进」正是 Loop Engineering 和 autoresearch 想回答的问题,只不过微软把它包装成了面向企业客户的现成产品叙事,把整套反馈外环的工程问题变成了一个可以采购的承诺。想看大厂怎么把 outer loop 卖给企业客户,可以读原文。详见
时间序列 LLM 原理解析:以 t0-alpha 为例。
Towards Data Science 这篇用 The Forecasting Company 6 月开源的 t0-alpha(102M 参数)为例,讲清楚时间序列基础模型的工作原理。它的基本配方和语言建模很像:把数值序列切成 patches,用 causal transformer 处理这些 patches,输出的是分位数而不是单条未来曲线。作者重跑了 GIFT-Eval 基准,t0-alpha 复现了官方的头条数字:CRPS 0.4941、MASE 0.7240。文章还讨论了这类模型当前的优势和未来提升方向。适合想具体理解时间序列 LLM 内部机制的工程师读,模型小到能在单张中端 GPU 上跑。详见
RAG 问题解析被忽视的教训:在搜索之前先建结构。
这篇来自 Towards Data Science,立场很明确:用户问题不是搜索查询。把原始字符串直接送向量化、cosine 跑 top-k、然后把结果丢给模型,正是 RAG 在生产里「悄悄坏掉」的常见原因--会出现静默的部分答案,而且没人知道答案是从哪段文档来的、是不是答非所问。作者主张在检索之前,先把问题结构化成类型化的关系数据(一个带 brief 的 question_df 行),让下游知道问题有几个部分、用户要的是精确值还是一段描述、要不要跨文档关联。文章配了 GitHub 上可运行的 notebook,可以照着复跑。和精讲一里 Error-as-Data、可观测性的思路相通:每一步都留下类型化、可审计的痕迹。适合正在搭 RAG 管道、想让每步可审计成本可控的工程师。详见
补充阅读 Amazon SageMaker AI 中多轮强化学习的最佳实践:AWS 这篇讲在 SageMaker AI 里训练多轮 agent 时,环境设计、奖励函数、外部评估、多轮管理这几个决定成败的环节。核心提醒是--agent 行动空间越大,钻奖励空子的方式就越多,训练环境会悄悄腐蚀训练信号。做 agentic RL 的工程师可以当 checklist 读。详见 GitHub 如何利用密钥扫描实现「收件箱清零」:GitHub 安全团队分享如何在九个月内把 15000+ 仓库里的 20000+ 条密钥扫描告警降到零。方法不复杂--分阶段启用、验证、所有权映射、问责制--但执行细节真实,适合做平台安全和治理的团队参考。详见 一个 Transformer 层就够?训练单层可媲美全参数 RL:这篇系统地证明,训练单个 Transformer 层就能恢复全参数 RL 后训练的大部分收益,且贡献集中在中间层。结论反直觉但对算力受限的 RL 后训练很有价值,做模型训练的研究者和工程师会感兴趣。详见 Netflix 基于服务级别优先级的负载丢弃策略:Netflix 工程师介绍在流量高峰期优先丢弃低优先级请求、保护关键用户请求的方案,并附了真实数据与实现细节。做高可用系统和过载保护的工程师可以直接借鉴。详见 把 AI 编程的混乱转化为可复制的实战手册:Snowflake 工程高级副总裁分享规模化应用 coding agent 的系统化方法--从无约束探索,到沉淀出 14 种 AI 设计模式、推行「聚焦周」,再到把发布验证周期从 15 天压到 1 天的成熟度模型。和精讲二的 Harness/Loop 思路能对上,适合在工程组织里推 AI 编程的负责人读。详见 Senior SWE-Bench:像考察资深工程师那样考察 Agent:这个新基准专门评估 AI 编程 agent 在真实、需求未明确指定的任务上的表现--需要资深工程师的判断力和运行时调查能力,而不是过度规格化的需求。它还引入了一个 validation agent,用专家设计的 recipe 写自适应的行为测试。做 agent 评测的读者值得关注。详见
今日阅读路径 如果你今天时间有限,建议按这个顺序读三篇。先读精讲一「相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么」,建立 6 个协议对象和「状态持久化是分水岭」的坐标系;再读精讲二「Loop Engineering 又是啥」,看 Prompt / Context / Harness / Loop 四层怎么嵌套,以及为什么跳过 L3 直接做 L4 最危险;最后读精讲三「Autoresearch」,看自我改进的 outer loop 在生产里到底长什么样。三篇读完后,再挑一两篇速览(做前端选 TypeScript 守卫,做 RAG 选问题解析,关注行业大局选晚点聊季报)作为延伸即可。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。