BestBlogs 周刊第 93 期 · AI 次方变革 · AI HOT
ginobefun @hongming731 63
2026-05-02 15:04 ·61天前
AI 摘要 本期核心观点是应将AI视为驱动根本性变革的“指数”,而非线性补充工具。杨斌教授指出,组织心智与知识底数需先质变,否则AI放大效应将失效。Karpathy提出编程将演变为设计上下文,程序员角色转向把握品味的“导演”。Demis Hassabis将AGI时间表压至2030年,并指出持续学习与长程推理是关键缺口,建议创业者瞄准“AI推理擅长而暴力搜索失效”的领域构建壁垒。国内实践同样强调,驾驭AI(Harness)与知识沉淀是关键能力。
ginobefun @hongming731 · X 2026-05-02 15:04 · 61天前
在 X 看原推 · x.com AI 摘要 本期核心观点是应将AI视为驱动根本性变革的“指数”,而非线性补充工具。杨斌教授指出,组织心智与知识底数需先质变,否则AI放大效应将失效。Karpathy提出编程将演变为设计上下文,程序员角色转向把握品味的“导演”。Demis Hassabis将AGI时间表压至2030年,并指出持续学习与长程推理是关键缺口,建议创业者瞄准“AI推理擅长而暴力搜索失效”的领域构建壁垒。国内实践同样强调,驾驭AI(Harness)与知识沉淀是关键能力。
杨斌教授的版本最直接。他说「+AI」是组织的中年心智,追求即期绩效、主流一致、线性稳进。这种心智把 AI 当成现有流程的一个有益补充,不挑战既有的权力分布,也不挑战既有的文化假设。
但 AI 不是一种成熟工具,它每天都在变。如果底数没有先发生质变,幂位再怎么放大都没有用。底数小于一时,幂位甚至会让结果塌陷。
正确的做法是把 AI 放到指数位上 -- 破执重构,让组织从大写变小写,让主流让位给杨斌说的「流人和边域」。他在演讲里点名 Claude Code 和 OpenClaw 这两个产品,说它们都是流人作品,都是在边缘环境里长出来的,不是被规划出来的。
这一点和涌现的本质相关:涌现不能被计划,但有规律。杨斌引用了两句英文:context not control,emerging not planning。情境而不是控制,涌现而不是计划。
→ 阅读原文:杨斌:我为什么要提「AI 次方变革」
Karpathy: Software 3.0 + Vibe Coding + Agentic Engineering
Karpathy 在 Sequoia 现场给硅谷版的「AI 次方」搭了一套完整语言。他把过去的程序员演化拆成三段:
Software 3.0:大语言模型变成计算机本身,上下文窗口变成新的接口。在这个范式里,编程不是写代码,是设计上下文 然后他给了两个新词。Vibe Coding 是抬高地板,让所有人都可以靠描述意图做出软件。Agentic Engineering 是给智能体保持质量和边界,因为这些智能体本质上是有锯齿(spiky)、有概率性的工程实体,需要被驯服。
Karpathy 在访谈里有一句话我印象很深:You can outsource your thinking, but you can't outsource your understanding。未来的程序员是 director,是导演,是那个决定 taste 和 systems design 的角色,那部分是不可被外包的。
→ 阅读原文(中文整理):Karpathy 最新访谈:Vibe Coding 只是开始,真正重要的是 Agentic Engineering → 视频原始版:Andrej Karpathy: Software 3.0 完整框架
Demis Hassabis:AGI 还差什么 + 创业者怎么办
Demis Hassabis 在 Y Combinator 现场,从科学家的角度回答 AGI 还差什么。他把 AGI 时间表压到大概 2030 年,并且明确指出还差三块「大想法」:
持续学习(Continual Learning):模型要能在不忘旧知识的情况下持续吸收新知识 长程推理(Long-term Reasoning):从简单的链式思考升级到能做计划和自省的更稳健推理 类脑工作记忆(Brain-style Working Memory):从蛮力堆上下文窗口升级到更接近人脑的高效记忆 Demis 给创业者的建议很硬:假设 AGI 会在你公司生命周期的中段出现。所以产品要去截击 AI 曲线,去那些「暴力搜索失效但 AI 推理擅长」的组合空间,比如材料科学、医药、Isomorphic Labs 在做的虚拟细胞。不要去和「AGI + 一行 prompt」竞争,那条路是没有壁垒的。
→ 阅读原文:How to Build the Future: Demis Hassabis
把这三个人的话叠在一起,会发现一个共同信号 -- 新范式的关键不是模型本身,是组织怎么改、人在哪里、产品打哪个空间。杨斌讲的是组织的底数得先质变,Karpathy 讲的是程序员要变成导演,Demis 讲的是产品要去截击曲线。三个人从三个层面回答同一个问题。
二、Harness Engineering 中文化:四篇同周给出第一性原理 有了框架,看落地。这一周国内三家大厂几乎同步给出了 Harness Engineering 的中文版第一性原理,加上腾讯云开发者那篇挑衅式的「RAG 已死」,构成了本周最密集的一组中文 Agent 工程化讨论。
最让我意外的是小马智行 CTO 楼天城接受量子位的访谈。一个开发自动驾驶十年的人,公开承认开发的主导权正在交给 AI。原文里他用了一句话:
他把今天的 AI 形容成一匹脱缰野马,能调用工具、能调用各种 skill,主动性和能量都在大幅提升。然后他抛出一个让人停下来想一下的判断:未来甚至连人类,都可能成为被「调用」的一环。
这一段听起来有点黑色幽默,但他的逻辑是直的 -- L4 级自动驾驶不能靠人类兜底,模仿学习的天花板就是人类本身。当 AI 司机的安全性全面超过人类,再让人类工程师手把手教 AI 开车,就像让业余棋手去辅导 AlphaGo。这是范式问题,不是态度问题。
→ 阅读原文:量子位专访楼天城:AI 是匹脱缰野马,Harness 是这个时代最关键的能力
腾讯技术工程团队再上一层定义:Harness 不是目的,知识才是护城河。这个判断把抽象提了一级。
Harness 是工程实现,是 SOP 和 Skill 库的集合。但真正决定一个团队能不能持续受益的,是这套 Harness 背后能沉淀什么知识。腾讯给出的是一个从 SOP 到 Skill 库的工程交付路线,描述了一个团队怎么把每天踩的坑沉淀成可复用的能力。
→ 阅读原文:Harness 不是目的,知识才是护城河 -- 一个 AI 工程交付团队的知识沉淀实践
阿里云:拆 OpenClaw 的 Agent 架构,三条反直觉结论
阿里云开发者用一篇长文系统拆 OpenClaw 的 Agent 架构。这篇文章值得做 Agent 的同学读,因为里面有几个反直觉结论:
更贵的模型没你想象中那么有用,Harness 和验证测试的质量对成功率的影响更大 调试 Agent 行为时,应该优先检查工具定义 -- 多数工具调用错误来自描述不准确,不是模型不够聪明 评测系统本身的问题,往往比 Agent 的问题更难发现。如果一直在 Agent 代码上调,效果可能上不去 → 阅读原文:你不知道的 Agent:原理、架构与工程实践
最后是腾讯云开发者那篇 RAG 已死?不,是 Grep 回归了! 标题挑衅,但论点扎实。
作者的判断是:高质量的 Skill 和工具描述比向量索引更值钱。当模型本身越来越强,长上下文越来越便宜的时候,传统 RAG 那套切片、向量化、相似度召回的复杂度就显得多余。直接用 Grep,用关键字搜索,加上准确的工具描述,效果反而更好。
这其实和阿里那篇结论是相通的,都指向同一件事 -- 工具描述和 Harness 比模型选型更重要。
→ 阅读原文:RAG 已死?不,是 Grep 回归了!
把这四篇放在杨斌的框架下看,就是底数的质变。组织如果还在比谁的模型更贵,那就是把变革放在加号位上。组织如果开始研究 Harness、研究知识沉淀、研究工具描述,那就是开始把变革放在指数位上。
三、Anthropic 两连发:Claude Code 心法 + 提示缓存 这一周 Anthropic 官方贴了两份 Claude Code 团队的内部经验,正好补上了 Karpathy 没回答的工程细节。
第一篇用了一个真实案例。MacCoss Lab 是华盛顿大学的一个蛋白质分析实验室,他们的开源软件 Skyline 已经维护了 17 年,70 万行 C# 代码。主开发者 Brendan 一开始很怀疑 Claude Code 能不能搞定这种长寿命项目。
最后他想清楚了一件事:自己过去十几年带本科生、研究生、博士后进入这套代码库,那一整套 onboarding 方法论,可以原封不动地用在 Claude Code 上。先给「实验室手册」,再交工作任务。把 AI 当作一个新进研究员来带,而不是当成一个魔法盒子。
这一篇值得做工程的同学读。它没有讲什么新概念,但它把心法落到了具体场景。
→ 阅读原文:像带新人一样引导 Claude Code:来自 17 年开发经验的启示
第二篇是 Claude Code 团队自己的复盘:提示缓存对编程智能体是至关重要的,命中率直接决定了一个长程任务能不能跑稳。
这听起来很工程,但它其实是一个范式判断 -- 当智能体要持续可靠地干完长任务,关键变量不是模型本身的智能,而是它能不能稳定地保留上下文。提示缓存就是这个稳定性的最直接来源。
两篇加起来,把 Karpathy 留下的工程黑盒打开了。
→ 阅读原文:构建 Claude Code 的经验教训:提示缓存至关重要
四、OpenAI 编排栈 + Cloudflare:让 Agent 上手干活 Symphony:把 Codex 多智能体编排做成开源规范 → 阅读原文 AI Engineer 现场拆解 Codex 子智能体:把 OpenAI 的 AI 工程平台从 IDE 里拎出来 → 阅读原文 长时间运行的智能体(Elevate):补另一面 -- 让 Agent 持续可靠干完长任务,要从持久化、子线程、检查点设计起 → 阅读原文 这一组三篇组合起来,像极了 Cloudflare 上一期做的「Agent 基建周」,只不过这次是 OpenAI 在做。
Cloudflare:Agent 自己开户、买域名、部署应用
这一期 Cloudflare 的代表作是一个干净的 one-shot 演示 -- AI Agent 能自己创建 Cloudflare 账户、买域名、把 Workers 部署上线。背后有 Managed OAuth + Mesh 撑起私有联网。
这件事小,但意义大。它把「Agent 上手干活」从 demo 推到了生产入口。Software 3.0 真正能跑的标志,不是 Agent 能写多少代码,而是 Agent 能不能从注册账户开始,把整个交付流水线走完。
→ 阅读原文:AI 智能体现在可以创建 Cloudflare 账户、购买域名并部署应用
五、企业生产实战:京东 GRAM + Java MCP 京东广告团队披露 GRAM 架构 -- 他们把生成式推荐做到了端到端 50 毫秒。这是什么概念呢,50 毫秒是用户感知不到的延迟。在电商场景下,把「模型即推荐系统」这个判断打了第一个范本。
这背后涉及到训练侧的稀疏化、推理侧的工程化、还有大量的算子优化,是真正的工程硬功夫。
→ 阅读原文:京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐?
Java 世界中的 MCP:把 LLM 集成提升到架构纪律
InfoQ 的长文,讲 Java MCP SDK。这篇文章我推荐 Java 同学读一下。它的视角是把 MCP 看作架构纪律,不是 prompt 工程:
反腐败层:MCP Server 在 LLM 和核心系统之间隔一层,控制能力暴露范围 控制平面:把 LLM 集成放进 Spring 和 JVM 团队熟悉的服务边界、可观测性、资源管理体系里 它不是教你写 MCP 代码,是教你把 LLM 集成放进企业架构的那条线里。
→ 阅读原文:Java 世界中的 MCP:为 LLM 集成带来架构策略
六、范式思辨:Skill 蒸馏、Language Agent 60 年史、智能体失败案例 腾讯科技的这篇文章,从 GitHub 上一批 skill 类项目的爆火谈起。三月底同时火起来的有「同事 skill」「老板 skill」「女娲 skill」 -- 同事 skill 把离职同事的飞书消息、钉钉文档、Slack 记录、微信聊天都喂给 Claude,自动生成一个 skill 文件。装上之后 AI 能「变成」那个同事,连说话语气都模仿。
然后 CMU 出了一篇论文,跑出来 SkillFoundry,一次扫一遍 GitHub 仓库、API 文档、Jupyter Notebook、学术论文,挖出 286 个 skill。BenchFlow 团队的 SkillsBench 测了 84 个任务,加 Skill 后平均通过率提升 16.2 个百分点。
但同一周还出现了一个反向项目 anti-distill,帮你生成一份看起来完整、核心知识却被掏空的 skill 文件。作者追问的问题是:那层能被掏空的是什么,那层掏不空的又是什么?
→ 阅读原文:严肃聊聊,Skill 到底能蒸馏我们的几分之几?
张小珺 × 苏煜:Language Agent 60 年技术史
张小珺这一期访谈,嘉宾是俄亥俄州立大学的苏煜教授。两个小时的长对谈,把 Language Agent 60 年的技术史复盘了一遍 -- 从 1960 年代的逻辑代理,到神经代理、语义解析,再到今天的语言代理。
苏煜给出一个判断:OpenClaw Moment 像 ChatGPT Moment。意思是 OpenClaw 的出现,可能是 Agent 时代的那个分水岭。这一期我推荐五一假期听,节奏不快,信息密度大。
→ 阅读原文:139.【Agent 综述】和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射
PostHog 的 Danilo 在 AI Engineer 现场分享了一个智能体的失败案例。他们做的 Wizard 是一个一个月服务 15,000 用户的自动化集成助手,模型很容易因为静态训练数据过期而搞砸事情。
新鲜上下文:把最新的 Markdown 文档直接注入上下文(避开复杂 RAG) 推理时审讯:每次跑完问 Agent「我应该怎么做才能让你成功?」 prose > scaffolding:纯文本散文比脚手架代码更值钱 最后一条留下一句话挺有力 -- 在 AI 时代,文档质量是面向未来的资产,硬编码的逻辑是在折旧。
→ 阅读原文:LLM 代码生成为什么会失败,以及如何避免
七、商业重构:OpenAI 与微软的新阶段 OpenAI 和微软这周宣布了一个重要的合作新阶段。新协议把双方关系从独占走向灵活。三件事可以注意:
OpenAI 产品仍然优先在 Azure 上发布,但现在可以服务任何云供应商 微软对 OpenAI 知识产权的授权,从独占改成非独占,同时微软不再向 OpenAI 支付收入分成 微软作为大股东继续参与 OpenAI 的增长,OpenAI 到 2030 年仍按比例向微软分成(有总额上限) 这是过去两年商业重构里最值得记下的一笔。OpenAI 走向「基础设施级」独立的关键一步迈出去了。
写在最后:本周三条判断 第一,杨斌的「AI 次方变革」不是又一个 buzz word,是给企业的一个很有用的提醒。如果你团队还在讨论怎么让大模型给现有流程加分,那就是把 AI 放在加号位上。如果你团队开始讨论 Harness、知识沉淀、工具描述,那就是开始把 AI 放在指数位上。
第二,Karpathy 的 director 比喻和 Demis 的「截击 AI 曲线」建议,加上国内三家大厂的 Harness 中文化,这一组信号让我相信 Agentic Engineering 已经从概念阶段进入工程阶段。下一阶段比拼的不是谁的模型更强,而是谁的工程纪律更扎实。
第三,Anthropic 那篇「带新人」的故事我会推荐给所有团队的同学读一下。它没有讲什么 cutting edge 的东西,但它把心法落到了你今天就能用的实践里。
完整 20 篇精选:https://www.bestblogs.dev/newsletter/issue93
订阅 BestBlogs Pro,每天早上收到双语早报,五月起进入早鸟价:https://www.bestblogs.dev
回头看前两期周刊,第 91 期是基建周,第 92 期是模型周。这一期不再是单一爆发,而是大家集体在往同一个方向上汇拢 -- 从 +AI 走向 AI 次方。
个人更新:BestBlogs 四月内测收官,五月进入早鸟期 四月份 BestBlogs 的内测正式收官。这一个月里我们做了挺多事情,挑用户能感知的几条说一下:
开放能力发布(v2.0.7):上线 OpenAPI、命令行工具 @bestblogs/cli、还有给 Claude Code 这类智能体准备的 skills 套件,让外部开发者可以直接调用站内数据和功能。 内建翻译升级到 v2(v2.1.0):同一篇内容只扣一次配额,中英双向,覆盖文章 / 播客 / 视频。文章和推文详情页可以直接读译文,不再需要跳转 wenrun.ai。 每日回顾上线(v2.0.11 + v2.1.1):AI 根据你当天的阅读足迹提炼洞察,可邮件投递。Pro 内测用户每天会收到一封中英双语的 Daily Review。 主题深度解读(v2.1.0 + v2.1.3):上线 Topic Pages,目前支持事件、领域、人物 / 组织、对比四种类型,编辑可以把最值得读的主题置顶。 Pro 早报双形态(v2.1.0):文字版(一句话总结 + 关键洞察 + 头条卡片)和播客版可以即时切换,喜欢扫读的有了文字版,喜欢通勤听的还是播客版。 此外还上线了公开 /docs 文档中心和 Mobile App 内测。完整更新日志在 bestblogs.dev/changelog。
五月开始,BestBlogs 正式进入早鸟期,欢迎大家订阅、使用,把反馈直接告诉我。
一、三个理论框架:杨斌、Karpathy、Demis 同周给出三种语言 这一周最有意思的地方是,三个完全不同背景的人,几乎在同一周给出了同一种判断的不同版本。
杨斌教授的版本最直接。他说「+AI」是组织的中年心智,追求即期绩效、主流一致、线性稳进。这种心智把 AI 当成现有流程的一个有益补充,不挑战既有的权力分布,也不挑战既有的文化假设。
但 AI 不是一种成熟工具,它每天都在变。如果底数没有先发生质变,幂位再怎么放大都没有用。底数小于一时,幂位甚至会让结果塌陷。
正确的做法是把 AI 放到指数位上 -- 破执重构,让组织从大写变小写,让主流让位给杨斌说的「流人和边域」。他在演讲里点名 Claude Code 和 OpenClaw 这两个产品,说它们都是流人作品,都是在边缘环境里长出来的,不是被规划出来的。
这一点和涌现的本质相关:涌现不能被计划,但有规律。杨斌引用了两句英文:context not control,emerging not planning。情境而不是控制,涌现而不是计划。
→ 阅读原文:杨斌:我为什么要提「AI 次方变革」
Karpathy: Software 3.0 + Vibe Coding + Agentic Engineering
Karpathy 在 Sequoia 现场给硅谷版的「AI 次方」搭了一套完整语言。他把过去的程序员演化拆成三段:
Software 3.0:大语言模型变成计算机本身,上下文窗口变成新的接口。在这个范式里,编程不是写代码,是设计上下文 然后他给了两个新词。Vibe Coding 是抬高地板,让所有人都可以靠描述意图做出软件。Agentic Engineering 是给智能体保持质量和边界,因为这些智能体本质上是有锯齿(spiky)、有概率性的工程实体,需要被驯服。
Karpathy 在访谈里有一句话我印象很深:You can outsource your thinking, but you can't outsource your understanding。未来的程序员是 director,是导演,是那个决定 taste 和 systems design 的角色,那部分是不可被外包的。
→ 阅读原文(中文整理):Karpathy 最新访谈:Vibe Coding 只是开始,真正重要的是 Agentic Engineering → 视频原始版:Andrej Karpathy: Software 3.0 完整框架
Demis Hassabis:AGI 还差什么 + 创业者怎么办
Demis Hassabis 在 Y Combinator 现场,从科学家的角度回答 AGI 还差什么。他把 AGI 时间表压到大概 2030 年,并且明确指出还差三块「大想法」:
持续学习(Continual Learning):模型要能在不忘旧知识的情况下持续吸收新知识 长程推理(Long-term Reasoning):从简单的链式思考升级到能做计划和自省的更稳健推理 类脑工作记忆(Brain-style Working Memory):从蛮力堆上下文窗口升级到更接近人脑的高效记忆 Demis 给创业者的建议很硬:假设 AGI 会在你公司生命周期的中段出现。所以产品要去截击 AI 曲线,去那些「暴力搜索失效但 AI 推理擅长」的组合空间,比如材料科学、医药、Isomorphic Labs 在做的虚拟细胞。不要去和「AGI + 一行 prompt」竞争,那条路是没有壁垒的。
→ 阅读原文:How to Build the Future: Demis Hassabis
把这三个人的话叠在一起,会发现一个共同信号 -- 新范式的关键不是模型本身,是组织怎么改、人在哪里、产品打哪个空间。杨斌讲的是组织的底数得先质变,Karpathy 讲的是程序员要变成导演,Demis 讲的是产品要去截击曲线。三个人从三个层面回答同一个问题。
二、Harness Engineering 中文化:四篇同周给出第一性原理 有了框架,看落地。这一周国内三家大厂几乎同步给出了 Harness Engineering 的中文版第一性原理,加上腾讯云开发者那篇挑衅式的「RAG 已死」,构成了本周最密集的一组中文 Agent 工程化讨论。
最让我意外的是小马智行 CTO 楼天城接受量子位的访谈。一个开发自动驾驶十年的人,公开承认开发的主导权正在交给 AI。原文里他用了一句话:
他把今天的 AI 形容成一匹脱缰野马,能调用工具、能调用各种 skill,主动性和能量都在大幅提升。然后他抛出一个让人停下来想一下的判断:未来甚至连人类,都可能成为被「调用」的一环。
这一段听起来有点黑色幽默,但他的逻辑是直的 -- L4 级自动驾驶不能靠人类兜底,模仿学习的天花板就是人类本身。当 AI 司机的安全性全面超过人类,再让人类工程师手把手教 AI 开车,就像让业余棋手去辅导 AlphaGo。这是范式问题,不是态度问题。
→ 阅读原文:量子位专访楼天城:AI 是匹脱缰野马,Harness 是这个时代最关键的能力
腾讯技术工程团队再上一层定义:Harness 不是目的,知识才是护城河。这个判断把抽象提了一级。
Harness 是工程实现,是 SOP 和 Skill 库的集合。但真正决定一个团队能不能持续受益的,是这套 Harness 背后能沉淀什么知识。腾讯给出的是一个从 SOP 到 Skill 库的工程交付路线,描述了一个团队怎么把每天踩的坑沉淀成可复用的能力。
→ 阅读原文:Harness 不是目的,知识才是护城河 -- 一个 AI 工程交付团队的知识沉淀实践
阿里云:拆 OpenClaw 的 Agent 架构,三条反直觉结论
阿里云开发者用一篇长文系统拆 OpenClaw 的 Agent 架构。这篇文章值得做 Agent 的同学读,因为里面有几个反直觉结论:
更贵的模型没你想象中那么有用,Harness 和验证测试的质量对成功率的影响更大 调试 Agent 行为时,应该优先检查工具定义 -- 多数工具调用错误来自描述不准确,不是模型不够聪明 评测系统本身的问题,往往比 Agent 的问题更难发现。如果一直在 Agent 代码上调,效果可能上不去 → 阅读原文:你不知道的 Agent:原理、架构与工程实践
最后是腾讯云开发者那篇 RAG 已死?不,是 Grep 回归了! 标题挑衅,但论点扎实。
作者的判断是:高质量的 Skill 和工具描述比向量索引更值钱。当模型本身越来越强,长上下文越来越便宜的时候,传统 RAG 那套切片、向量化、相似度召回的复杂度就显得多余。直接用 Grep,用关键字搜索,加上准确的工具描述,效果反而更好。
这其实和阿里那篇结论是相通的,都指向同一件事 -- 工具描述和 Harness 比模型选型更重要。
→ 阅读原文:RAG 已死?不,是 Grep 回归了!
把这四篇放在杨斌的框架下看,就是底数的质变。组织如果还在比谁的模型更贵,那就是把变革放在加号位上。组织如果开始研究 Harness、研究知识沉淀、研究工具描述,那就是开始把变革放在指数位上。
三、Anthropic 两连发:Claude Code 心法 + 提示缓存 这一周 Anthropic 官方贴了两份 Claude Code 团队的内部经验,正好补上了 Karpathy 没回答的工程细节。
第一篇用了一个真实案例。MacCoss Lab 是华盛顿大学的一个蛋白质分析实验室,他们的开源软件 Skyline 已经维护了 17 年,70 万行 C# 代码。主开发者 Brendan 一开始很怀疑 Claude Code 能不能搞定这种长寿命项目。
最后他想清楚了一件事:自己过去十几年带本科生、研究生、博士后进入这套代码库,那一整套 onboarding 方法论,可以原封不动地用在 Claude Code 上。先给「实验室手册」,再交工作任务。把 AI 当作一个新进研究员来带,而不是当成一个魔法盒子。
这一篇值得做工程的同学读。它没有讲什么新概念,但它把心法落到了具体场景。
→ 阅读原文:像带新人一样引导 Claude Code:来自 17 年开发经验的启示
第二篇是 Claude Code 团队自己的复盘:提示缓存对编程智能体是至关重要的,命中率直接决定了一个长程任务能不能跑稳。
这听起来很工程,但它其实是一个范式判断 -- 当智能体要持续可靠地干完长任务,关键变量不是模型本身的智能,而是它能不能稳定地保留上下文。提示缓存就是这个稳定性的最直接来源。
两篇加起来,把 Karpathy 留下的工程黑盒打开了。
→ 阅读原文:构建 Claude Code 的经验教训:提示缓存至关重要
四、OpenAI 编排栈 + Cloudflare:让 Agent 上手干活 Symphony:把 Codex 多智能体编排做成开源规范 → 阅读原文 AI Engineer 现场拆解 Codex 子智能体:把 OpenAI 的 AI 工程平台从 IDE 里拎出来 → 阅读原文 长时间运行的智能体(Elevate):补另一面 -- 让 Agent 持续可靠干完长任务,要从持久化、子线程、检查点设计起 → 阅读原文 这一组三篇组合起来,像极了 Cloudflare 上一期做的「Agent 基建周」,只不过这次是 OpenAI 在做。
Cloudflare:Agent 自己开户、买域名、部署应用
这一期 Cloudflare 的代表作是一个干净的 one-shot 演示 -- AI Agent 能自己创建 Cloudflare 账户、买域名、把 Workers 部署上线。背后有 Managed OAuth + Mesh 撑起私有联网。
这件事小,但意义大。它把「Agent 上手干活」从 demo 推到了生产入口。Software 3.0 真正能跑的标志,不是 Agent 能写多少代码,而是 Agent 能不能从注册账户开始,把整个交付流水线走完。
→ 阅读原文:AI 智能体现在可以创建 Cloudflare 账户、购买域名并部署应用
五、企业生产实战:京东 GRAM + Java MCP 京东广告团队披露 GRAM 架构 -- 他们把生成式推荐做到了端到端 50 毫秒。这是什么概念呢,50 毫秒是用户感知不到的延迟。在电商场景下,把「模型即推荐系统」这个判断打了第一个范本。
这背后涉及到训练侧的稀疏化、推理侧的工程化、还有大量的算子优化,是真正的工程硬功夫。
→ 阅读原文:京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐?
Java 世界中的 MCP:把 LLM 集成提升到架构纪律
InfoQ 的长文,讲 Java MCP SDK。这篇文章我推荐 Java 同学读一下。它的视角是把 MCP 看作架构纪律,不是 prompt 工程:
反腐败层:MCP Server 在 LLM 和核心系统之间隔一层,控制能力暴露范围 控制平面:把 LLM 集成放进 Spring 和 JVM 团队熟悉的服务边界、可观测性、资源管理体系里 它不是教你写 MCP 代码,是教你把 LLM 集成放进企业架构的那条线里。
→ 阅读原文:Java 世界中的 MCP:为 LLM 集成带来架构策略
六、范式思辨:Skill 蒸馏、Language Agent 60 年史、智能体失败案例 腾讯科技的这篇文章,从 GitHub 上一批 skill 类项目的爆火谈起。三月底同时火起来的有「同事 skill」「老板 skill」「女娲 skill」 -- 同事 skill 把离职同事的飞书消息、钉钉文档、Slack 记录、微信聊天都喂给 Claude,自动生成一个 skill 文件。装上之后 AI 能「变成」那个同事,连说话语气都模仿。
然后 CMU 出了一篇论文,跑出来 SkillFoundry,一次扫一遍 GitHub 仓库、API 文档、Jupyter Notebook、学术论文,挖出 286 个 skill。BenchFlow 团队的 SkillsBench 测了 84 个任务,加 Skill 后平均通过率提升 16.2 个百分点。
但同一周还出现了一个反向项目 anti-distill,帮你生成一份看起来完整、核心知识却被掏空的 skill 文件。作者追问的问题是:那层能被掏空的是什么,那层掏不空的又是什么?
→ 阅读原文:严肃聊聊,Skill 到底能蒸馏我们的几分之几?
张小珺 × 苏煜:Language Agent 60 年技术史
张小珺这一期访谈,嘉宾是俄亥俄州立大学的苏煜教授。两个小时的长对谈,把 Language Agent 60 年的技术史复盘了一遍 -- 从 1960 年代的逻辑代理,到神经代理、语义解析,再到今天的语言代理。
苏煜给出一个判断:OpenClaw Moment 像 ChatGPT Moment。意思是 OpenClaw 的出现,可能是 Agent 时代的那个分水岭。这一期我推荐五一假期听,节奏不快,信息密度大。
→ 阅读原文:139.【Agent 综述】和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射
PostHog 的 Danilo 在 AI Engineer 现场分享了一个智能体的失败案例。他们做的 Wizard 是一个一个月服务 15,000 用户的自动化集成助手,模型很容易因为静态训练数据过期而搞砸事情。
新鲜上下文:把最新的 Markdown 文档直接注入上下文(避开复杂 RAG) 推理时审讯:每次跑完问 Agent「我应该怎么做才能让你成功?」 prose > scaffolding:纯文本散文比脚手架代码更值钱 最后一条留下一句话挺有力 -- 在 AI 时代,文档质量是面向未来的资产,硬编码的逻辑是在折旧。
→ 阅读原文:LLM 代码生成为什么会失败,以及如何避免
七、商业重构:OpenAI 与微软的新阶段 OpenAI 和微软这周宣布了一个重要的合作新阶段。新协议把双方关系从独占走向灵活。三件事可以注意:
OpenAI 产品仍然优先在 Azure 上发布,但现在可以服务任何云供应商 微软对 OpenAI 知识产权的授权,从独占改成非独占,同时微软不再向 OpenAI 支付收入分成 微软作为大股东继续参与 OpenAI 的增长,OpenAI 到 2030 年仍按比例向微软分成(有总额上限) 这是过去两年商业重构里最值得记下的一笔。OpenAI 走向「基础设施级」独立的关键一步迈出去了。
写在最后:本周三条判断 第一,杨斌的「AI 次方变革」不是又一个 buzz word,是给企业的一个很有用的提醒。如果你团队还在讨论怎么让大模型给现有流程加分,那就是把 AI 放在加号位上。如果你团队开始讨论 Harness、知识沉淀、工具描述,那就是开始把 AI 放在指数位上。
第二,Karpathy 的 director 比喻和 Demis 的「截击 AI 曲线」建议,加上国内三家大厂的 Harness 中文化,这一组信号让我相信 Agentic Engineering 已经从概念阶段进入工程阶段。下一阶段比拼的不是谁的模型更强,而是谁的工程纪律更扎实。
第三,Anthropic 那篇「带新人」的故事我会推荐给所有团队的同学读一下。它没有讲什么 cutting edge 的东西,但它把心法落到了你今天就能用的实践里。
完整 20 篇精选:https://www.bestblogs.dev/newsletter/issue93
订阅 BestBlogs Pro,每天早上收到双语早报,五月起进入早鸟价:https://www.bestblogs.dev