http://x.com/i/article/2063404046279692288 # BestBlogs 早报 · 06-07｜多智能体编排、MCP 接口设计、缓存命中率在线阅读每日早报：https://www.bestblogs.dev/explore/brief/2026-06-07 ## 导语欢迎阅读 BestBlogs 每日早报 EP80。本期聚焦智能体时代的「工程底层」：一家从零出发、6 个月内靠多智能体编排拿到 1 亿美元 ARR 的公司，揭示了把「全部软件工程自动化」当作单一赌注的可行路径；Chrome DevTools 团队则在为 MCP 构建 Agent 接口的过程中，发现了 AI 协作界面设计与传统 UX 的本质裂缝。缓存失效、上下文窗口、工具 schema 稳定性，三篇文章指向同一个问题：Agent 系统的可靠性到底靠什么支撑。今日速览：3 篇精讲深度内容、7 条快讯速览、10 条补充阅读，带你掌握智能体工程最新动态。 ## Emergent：六个月 AI 折腾，如何催生一家 1 亿美元 ARR 公司阅读原文 → 从 Dunzo 到 Emergent：一次彻底的认知重建 Emergent 的故事，从一次失业开始。在此之前，创始人 Mukun 在印度超本地配送独角兽 Dunzo 深耕多年。Dunzo 融资约 5 亿美元，拥有近百万合同骑手，每月处理超过 1000 万单配送，是一家骨子里由物流、运营和真实世界摩擦驱动的公司。2023 年底，Mukun 从 Dunzo 离职，陷入创始人特有的疲惫期。他给自己放了半年假。这段时间里，他在笔记本上随意写代码，摸索早期的 GPT-4 和开源音频架构，没有目标，也没有压力。正是这种无结构的探索，给了他一个冷静的基线判断：当时大多数开发团队还在做「代码补全插件（Copilot）」，但指数级增长的深度学习模型意味着全系统自动化完全可行。 > 「我们持有一个非常宏观的判断：AI 能力将指数级增长，我们永远顺着 AI 的方向构建……要么一次性自动化全部软件工程，要么就别做。」这个判断，对比「逐功能替换」的主流路线，是一个极其激进的单点押注。技术底层：多智能体编排与定制容器 Emergent 的竞争对手大多从生成静态原型或前端 UI 入手，本质上是「演示软件」。Emergent 的目标更高：构建能直接被用户商业化的全栈应用。这要求他们走出「一个 Prompt 调一次 LLM」的简单模式，进入复杂的基础设施架构。多智能体编排工作区 Emergent 协调多个专用自主 AI 智能体，包括设计智能体、代码生成智能体和自动化测试智能体。这些智能体通过一个多层分布式记忆网络同步工作区。平台上每个应用构建的成功组件，都会被抽象并索引回这个全局记忆核心，持续驱动平台迭代改进。定制容器架构由于多个 AI 实体需要动态交互源文件，同时不能互相覆盖执行状态，标准虚拟环境远远不够。团队为此设计了专有容器模式： - 状态快照：自建内存快照框架，支持对运行中的应用进程做即时分叉（fork）。 - 快照路由：设计磁盘快照阵列，允许不同评估智能体并发测试替代功能实现。 - 动态 RL 流水线：实现与实时执行输出挂钩的本地强化学习循环。极端工程灵活性为了跟上基础模型的跨越式升级（例如 Anthropic 的 Opus 级模型），Emergent 采用了一个反直觉的策略：主动删除稳定的生产组件，从零重建内部智能体框架。这一策略在不到 9 个月内导致了三次完整的平台架构重写。登顶代码基准的 3 个月冲刺在正式对外发布之前，Emergent 投入 3 个月时间，专攻代码生成基准排行榜，最终登顶第一位。这并非为了排名本身，而是为了在融资和推广之前建立技术可信度。 > 「我们需要一个可验证的第三方信号，证明我们的系统是真实的。排行榜是我们能找到的最直接的证明方式。」结果与意义上线不到 9 个月，Emergent 达到 1 亿美元 ARR，覆盖 190 个国家、850 万用户，其中大多数是没有任何编程背景的普通用户，他们用 Emergent 构建可直接投入使用的商业应用。 Emergent 的故事揭示了一条在 AI 时代独特的增长路径：选择一个足够大的单点赌注（全部软件工程自动化），在底层技术上做出真正的工程创新（多智能体编排 + 定制容器），用可验证的第三方基准积累信任，最终撬动规模化的大众市场。这与传统 SaaS 的功能渐进式迭代路线截然不同。对于今天思考「AI 能做什么」的工程师和创业者来说，这篇访谈提供的不只是一个成功案例，更是一套思考框架：不要问 AI 能辅助哪个环节，而是问 AI 能否一次性接管整个流程。 ## 为智能体构建界面：Chrome DevTools 设计 MCP 工具的经验阅读原文 → 核心问题：Agent 是一种全新的用户类型 Chrome DevTools 团队在为 MCP（Model Context Protocol）构建 Agent 接口时，踩过一个几乎所有人都会踩的坑：把 Agent 当成「自动化后端」来设计。他们很快意识到，这个假设从根本上就是错的。人类和 Agent 可能拥有完全相同的目标，比如诊断并修复一个有 bug 的网页。但它们的认知局限、处理习惯和交互需求截然不同。传统 UX 设计的核心原则是「减少摩擦」，但在 Agent 界面中，这条原则有时反而会制造安全漏洞。「数据倾倒区」：上下文窗口的陷阱团队最初尝试把标准的性能追踪日志直接传给 Agent。一份典型的性能分析报告包含超过 5 万行复杂 JSON，体积达数 MB。结果显而易见：Agent 会立即耗尽上下文窗口，陷入所谓的「数据倾倒区（Dump Zone）」，完全失去有效处理能力。解决方案是主动做信息过滤。Chrome DevTools for Agents 剔除了视觉布局需求和过于密集的文件，改为返回清晰的 Markdown 文件和语义摘要，只突出最关键的性能指标（如最大内容渲染时间 LCP）。让模型直接看到关键句子，而不是被迫阅读整本书。四个工程支柱 1. Token 燃油效率团队引入了一个核心效率指标：「每次成功完成的 Token 消耗数（Tokens per Successful Outcome）」：这个指标衡量 Agent 接口的「燃油效率」：功能完整性（有效性）与 Token 用量及调用时长（效率）之间的平衡。针对 Token 消耗，团队采用了三项优化措施：工具分类（将扩展调试等冷门操作从默认上下文中隐藏）、精简模式（仅暴露三个核心工具）、命令行管道化（让 Agent 在本地完成数据转换，而非占用模型上下文窗口）。 2. 错误自愈每次执行报错都会迫使 Agent 消耗额外 Token 进行诊断重试。解决思路是构建「描述性错误消息」，在错误信息中嵌入明确的上下文。例如，将一个导航失败错误更新为追加说明「未找到要导航的历史条目」，Agent 就能立即自主修复，无需人工干预。 3. 工具可发现性与 Schema 设计将单体端点拆分为细粒度工具组合会引入发现问题。当 Agent 面对数十个微工具时，可能难以找到正确工具。团队的做法是把 API Schema 当作「LLM 的 UI」来精心设计，为每个工具标注精确的激活条件，明确说明何时调用、何时不调用。 4. 三层信任边界 Agent 面对的信任边界不同于人类用户： - 本地环境：开发者自用工具，权限可以宽松。 - CI 环境：自动化流水线，需要受控权限。 - 公网环境：未知来源调用，需要严格沙箱。对 Agent 工程的启示这篇来自 Chrome DevTools 团队的一手经验，对今天所有在构建 MCP 工具或 Agent 接口的工程师都有直接价值： - 不要把 Agent 当成「更快的人类」，它需要专为其认知模式设计的接口。 - Schema 质量直接影响 Agent 的调用成功率，文档写给 LLM 看，不是写给人看。 - 信息密度控制是 Token 经济学的核心，传得越多不等于 Agent 理解得越好。 - 安全边界在 Agent 场景下需要重新设计，传统「减少摩擦」的原则在此可能适得其反。 ## 每个 AI 智能体功能都是一个缓存失效面阅读原文 → 真正的架构问题 OpenClacky 创始人 Yafei Lee 在这篇文章开头给出了一个简洁但深刻的核心命题： > 「每个 Agent 功能都是一个缓存失效面。技能加载新的系统上下文；子智能体工作流分叉前缀；浏览器自动化添加易变的工具输出；压缩重写历史；模型切换会碎片化缓存命名空间——如果你的缓存命中率远低于预期，这很可能就是原因。」这不是一篇讲如何调用 LLM 的文章，也不是讲如何增加工具的文章。它讲的是：在一个功能不断迭代的 Agent 系统中，如何保持缓存前缀稳定。两代失败架构的完整复盘第一代（2024 年至 2025 年初）：RAG 一切第一代架构是教科书式的 RAG 系统：嵌入用户代码库、文档和对话历史到向量存储，每次查询经过混合检索、重排序和查询改写后再进入 LLM。听起来合理，实际上问题重重： - 嵌入成本持续攀升，且数据始终是过时的。每次代码库更新都需要重新嵌入，实时同步不可靠，向量存储的索引一直落后于真实代码。 - 90% 的召回率远远不够。每 10 次检索就有 1 次返回错误上下文，对于多步骤链式 Agent 来说，错误会快速复合累积。团队估计，97% 的召回率可能才是 Agent 产生净正面价值的最低门槛。最终结论：对于在本地代码库上工作的编码 Agent，彻底废弃 RAG，不用嵌入，不用向量数据库，不用检索流水线。需要上下文就直接读文件或用 grep 搜索。第二代（2025 年中期）：多智能体编排第二代架构来自 SWEBench 排行榜的灵感：规划智能体 + 编码智能体 + 审查智能体 + 测试智能体，通过消息总线协调，每个智能体有专属提示词。 SWEBench 分数还不错，产品体验却很糟糕： - 每次智能体切换都是缓存未命中。每个子智能体有自己的系统提示和缓存命名空间。在智能体之间传递上下文意味着将状态序列化为消息，而每次切换都会清空接收智能体的缓存前缀。 - 4 分钟任务变成了 14 分钟。协调开销是真实存在的：智能体相互等待，重新读取上一个智能体已处理的上下文，偶尔还会做出相互矛盾的决策。 - 成本高出 6 倍。四个独立的缓存命名空间、四套系统提示、持续的状态序列化。「让专家分工」的直觉在人类团队中有效，但不适用于 LLM——单个前沿模型本身已经是通才，拆分只是在乘以开销。七项工程决策，实现 90%+ 缓存命中率经历两代失败架构后，团队在第三代架构中总结出七项核心工程决策： 1. 双缓存标记（滚动双缓冲）：在系统提示和对话历史之间维护两个独立的缓存前缀，确保最稳定的部分始终被缓存。 2. 冻结系统提示：系统提示只包含静态内容，所有动态信息（当前文件状态、工具调用结果）都注入对话消息而非系统提示，保持系统提示前缀永远不变。 3. 单 meta-tool 收敛所有扩展能力：用一个统一的 meta-tool 封装所有扩展功能，而非暴露大量细粒度工具，避免工具列表变化导致缓存失效。 4. 固定 16 个工具稳定 schema：工具集固定在 16 个，不随功能迭代增减，保持工具 schema 的绝对稳定。 5. Insert-then-Compress 策略：先将所有历史完整插入上下文，再在后台压缩，把压缩事件的缓存命中率从 0% 拉到 95%。 6. 模型特定状态隔离：模型相关的状态绝不写入系统提示，保证切换模型时不会碎片化缓存命名空间。 7. 会话级缓存预热：在会话开始时主动预热最常用的上下文块，减少冷启动开销。与今日其他内容的关联这篇文章与精讲一的 Emergent 和精讲二的 Chrome DevTools MCP 工具设计形成了一个完整的三角：Emergent 解决的是「如何编排多个 Agent 协同工作」，Chrome DevTools 解决的是「如何设计 Agent 能高效消费的接口」，而 OpenClacky 则深入到更底层，解决的是「Agent 系统在持续演进中如何保持经济可行性」。对于今天在生产环境中运行 Agent 系统、发现成本失控或响应速度下降的工程师，这篇文章提供的不是理论框架，而是经过两代失败验证的具体工程决策。 ## 速览 1. OpenAI 推理模型如何破解 Erdős 80 年悬而未决的数学难题阅读原文 → OpenAI 推理团队成员 Alexander Wei、Hunging Wu 和 Lee J Chen 解释了 test-time compute 如何让通用模型推翻保罗·埃尔德什（Paul Erdős）于 1946 年提出的「单位距离猜想」，这是一个困扰离散几何领域近 80 年的核心开放问题。与传统大语言模型即时输出不同，推理模型会在给定的计算预算内「思考」：生成内部思维链、尝试不同求解策略、通过代码执行验证数学逻辑。菲尔兹奖得主蒂莫西·高尔斯（Timothy Gowers）评价，这项工作「具有划时代意义」，达到了顶级数学期刊《数学年刊》的录用水准。这次突破标志着 AI 在数学发现领域的质变：从辅助工具到能独立解决百年难题的研究系统。 2. 全球互联网上智能体流量已超越人类流量阅读原文 → SemiAnalysis 援引 Cloudflare Radar 数据称，全球范围内 HTML 网页的 AI 智能体流量已超过人类流量。这一数据点意义深远：互联网的主要消费者正在从人类切换为 AI Agent，这将对网站架构、内容策略乃至商业模式产生根本性影响。与精讲二中 Chrome DevTools 为 Agent 设计专属接口的讨论相互印证：专为 Agent 优化的 web 界面，将成为未来基础设施的重要组成部分。 3. AI 的下一阶段：世界模型阅读原文 → AI 架构师 Mert 分析了前沿实验室从「预测下一个 token」到「预测世界的下一个状态」的范式转移。目前存在两个竞争方向：渲染像素（pixel prediction）vs 预测抽象状态（abstract state prediction）。世界模型是让 AI 真正理解物理世界、进行因果推理的关键，也是 Agent 从「执行指令」升级为「理解后果」的技术前提。 4. Context Engineering：从概念框架到工程实现阅读原文 → 作者整合 Matt Pocock 的 Context Engineering 框架和 Michal Cichra 的 Loop 实现，提出完整的 Agent 上下文工程体系：ADR（架构决策记录）记录原因、PRD 记录功能、BDD 记录验证、Loop 强制执行。这与精讲三中 OpenClacky 的缓存工程决策形成互补：精讲三解决的是「如何让上下文保持稳定」，这里讲的是「如何组织上下文使 Agent 做出正确决策」。 5. SpaceX 与谷歌签署每月 9.2 亿美元的云服务协议阅读原文 → SpaceX 与谷歌签署了一项庞大的云服务协议，从 2026 年 10 月到 2029 年 6 月，每月支付约 9.2 亿美元，获得包括约 11 万块 NVIDIA GPU 在内的算力资源。这是近期最能说明 AI 基础设施军备竞赛烈度的单笔交易：马斯克旗下公司以近百亿年均规模押注谷歌云和 NVIDIA GPU，折射出大规模 AI 训练和推理对算力需求的量级。 6. DeepSeek V4 做数学证明，500 倍成本优势阅读原文 → 普林斯顿大学团队提出 Goedel-Architect 框架，以 DeepSeek-V4-Flash 为核心模型，在 PutnamBench（672 道普特南大学生数学竞赛题）上实现形式化定理证明，通过率 75.6%，花费 294 美元。对比：谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统解同样测试集花费约 17 万美元，通过率 70%。约 500 倍的成本差异，配合更高的通过率，是本周最具震撼性的效率数据点。与速览第 1 条 OpenAI 推理模型破解 Erdős 猜想形成呼应：AI 正在从不同方向快速逼近数学研究的核心难度。 7. 豆包不用负责阅读原文 → 这篇文章通过多起真实案例，聚焦一个没有轻松答案的问题：当拥有 3 亿月活的国民级 AI 应用制造幻觉、误导用户时，谁来负责？河北李先生因信任豆包的退票建议损失 600 元，进而被 AI 引导起诉 AI，最终当然败诉，因为「AI 不具有民事主体资格，赔偿承诺不具法律效力」。文章揭示了三层系统性矛盾：拟人化设计（让用户过度信任）、流量分发（AI 可能被 GEO 优化），以及免责声明（法律零责任）之间的结构性张力。随着 AI 渗透率持续攀升，这个问题只会更难回避。 ## 补充阅读 Legora 如何从 YC 走到 18 个月 1 亿美元 ARR 阅读原文 → 又一个 18 个月 1 亿美元 ARR 的故事，法律 AI 赛道。Legora 结合激进的企业销售、创始人主导的招聘和智能体工作流策略，甚至签下 Jude Law 拍摄品牌广告打破法律科技营销刻板印象。与精讲一 Emergent 对比阅读，看两种 B2C 和 B2B 路径的异同。超越转录：构建真正理解对话的 Voice AI 阅读原文 → Herve Bredin 解释了 pyannote 说话人分离模型如何让 Voice AI 从「识别说了什么」进化到「识别谁在何时说话」。对在构建会议记录、客服分析或多人语音 Agent 的工程师有直接参考价值。 AVGO 财报后分析：300 亿美元 AI 订单与 3 倍积压阅读原文 → Teng Yan 分析博通（Broadcom）财报：300 亿美元 AI 订单 vs 108 亿美元出货量，3 倍积压，可见度延伸至 2028 年。关注 AI 基础设施供应链的读者不可错过，可与 SpaceX-Google 云协议（速览第 5 条）一起阅读，构建算力市场的完整图景。 OpenClaw 的暗工厂：AI 编码智能体如何把发版速度推到读不完 Diff 阅读原文 → Vincent Koc 分享 OpenClaw 如何以每天 3000 次提交的速度运转，把工程师变成「工厂管理者」。与精讲一 Emergent 的多智能体编排形成对照：一个是帮非技术用户构建应用，一个是帮工程师团队极速交付代码。从树到流再回归：统一决策树与扩散模型阅读原文 → 建立层次化决策树与扩散过程之间的数学对应关系，通过共享优化原则 GTSM（全局轨迹得分匹配）将两者统一。适合对机器学习理论感兴趣、希望理解「树与流」这两类模型背后共同数学结构的读者。 ABF 基板危机：隐藏的垄断与二阶危机阅读原文 → Teng Yan 揭示 ABF 基板短缺背后的二阶瓶颈：T 玻璃和微薄铜箔领域的近乎垄断，可能卡住 CoWoS 封装产能。AI 算力扩张的瓶颈往往藏在最不起眼的供应链环节，这篇是很好的案例。 Intel 18A 良率问题深度分析阅读原文 → 对 Intel 内部人士关于 18A 制程良率问题评论的批判性分析，质疑其过去说法与当前进展之间的一致性。关注半导体代工格局的读者，可与 AVGO 分析一同阅读。 Builder 角色崛起：AI 正在将工程、产品、设计熔为一个角色阅读原文 → 作者通过 Cursor 招聘 Design Engineers、Claude Design 画 SVG、OpenAI Sites 等信号，论证 AI 正在将工程、产品、设计三个传统角色熔合成「Builder」角色。与精讲一 Emergent 的「全部软件工程自动化」愿景形成有趣的角色层面呼应。反对可纠正性阅读原文 → LessWrong 上一篇反直觉的 AI 安全思考：「可纠正的 AI」并非无条件的优点，可纠正性可能助长不良行为者，并制造心理不稳定的心智。适合对 AI 安全有深度兴趣、愿意认真考察主流假设的读者，带着批判性眼光阅读效果更佳。为什么软件自动化如此困难阅读原文 → 编码 Agent 已经很强了，但对大型软件组织的实际影响，受到上下文管理、技术债务累积、协调开销和认知衰退等根本性瓶颈的制约。与精讲一 Emergent（乐观视角）和精讲三 OpenClacky（工程视角）一起读，构成对「软件工程自动化」这一命题更立体的认知。 ## 今日阅读路径时间有限？推荐优先读这三篇： 1. 精讲三：每个 AI 智能体功能都是一个缓存失效面（链接）：如果你今天只能读一篇，读这篇。它把 Agent 工程中最隐蔽、最普遍的成本问题讲清楚了，七项工程决策可以直接用于生产环境排查。 1. 精讲二：为智能体构建界面——Chrome DevTools 设计 MCP 工具的经验（链接）：如果你在构建任何 MCP 工具或 Agent 调用的接口，这篇是目前为止最有一手价值的实践总结。Token 燃油效率、Schema 设计、信任边界三个框架，够用很久。 1. 精讲一：Emergent 破亿 ARR 的路径（链接）：作为战略视角的补充。Emergent 的故事不只是一个 ARR 数字，它是「AI 时代是否值得做颠覆式赌注」这一问题的一个真实样本。对比精讲三的工程保守主义，两种思路之间的张力本身就很值得思考。

译本期聚焦三大Agent工程议题：1）Emergent通过多智能体编排+定制容器，6个月实现1亿美元ARR，覆盖190国850万无编程背景用户；2）Chrome DevTools团队为MCP设计Agent接口，提出Token燃油效率、错误自愈、工具Schema设计和三层信任边界；3）OpenClacky创始人指出每个Agent功能都是一个缓存失效面，第一代RAG架构因90%召回率不足和嵌入成本高而失效。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日23

AI researchers in 2025: we must enslave the machine god 2026: we need to slow down

译2025 年的 AI 研究者：我们必须奴役机器之神 2026 年：我们需要减速

jason@jxnlco · 6月7日48

Codex spin up 1000 agents and make a pr in every GitHub repo to migrate to ruff uv and ty. Only greens PRS. Surely that will benefit the community

译Codex 启动 1000 个 agent，在每个 GitHub 仓库中提交 PR，迁移到 ruff、uv 和 ty。只提交绿色的 PR。这肯定对社区有益。

Yuchen Jin@Yuchenj_UW · 6月7日53

Before AI, I’d spend a weekend building 1 useless app. Now I can build 67 useless apps over a weekend, each with a logo, a fancy webpage, and 0 user.

译AI之前，我花一个周末只能建1个没用App。现在我能在一个周末建67个没用App，每个自带logo、精美网页和0个用户。

Rohan Paul@rohanpaul_ai · 6月7日36

Masayoshi Son says AI could be 50x bigger than dot-com and the next trillion-dollar company will come from robotics. "So even dot-com there was a bubble burst, but then right after that, the peak of the dot-com bubble, the year 2000 was not really a peak. It was like a small hill. It went down, but then it went much, much bigger with a big trough bubble and a free cash flow. So AI will be, this is the beginning, and the future of the profit and the growth opportunities is tremendous." ~ Masayoshi Son, the founder and CEO of SoftBank --- From 'CNBC International Live' YT channel (link in comment)

译软银创始人兼CEO孙正义表示，AI的市场规模可能比互联网泡沫大50倍，下一个万亿美元公司将来自机器人领域。他指出，互联网泡沫在2000年破裂后实际增长远超当时顶峰，而AI目前才刚刚起步，未来的利润和增长机会极为巨大。

François Chollet@fchollet · 6月7日60

Code volume does not represent productivity.

译代码量并不代表生产力。

小互@xiaohu · 6月6日37

为什么会有很多账号会使用AI天天在一些博主的推文下面回复他们使用AI生成和推文内容相关的评论几乎出现在各个博主下面感觉是买了某种服务，想命中X的算法或者引起博主注意关注他们但是那些生成的评论内容太拙劣了🤣

译不少账号使用AI生成与推文内容相关的评论，几乎出现在各个博主下面。这种行为疑似购买某种服务，目的是命中X算法或引起博主关注。但这些AI生成的评论内容质量拙劣，极易被识别。

小互@xiaohu · 6月6日79

http://x.com/i/article/2063076298592051200 # 当AI 开始自己造自己三种可能的未来... Anthropic 发了篇文章：《When AI builds itself》，翻过来就是「当 AI 开始自己构建自己」。他们称这叫递归自我改进：指的是 AI 强到能自己设计、训练出比自己更厉害的下一代 AI，整个过程几乎不用人插手。 Anthropic 说，他们正在把越来越多的「开发 AI」这件事本身交给 AI 自己来做，而且已经在明显加速。如果这个趋势走到头，理论上会出现一个能完全自主设计并开发出自己继任者的 AI 系统，这就是递归自我改进。他们强调现在还没到那一步，也不是必然会发生，但可能比大多数机构预想的来得早。 ## 他们列出了三种可能的未来：第一种是趋势停住，这些指数曲线其实是 S 曲线，到了拐点就平了。但 Anthropic 说他们不认为这个可能性大，因为目前每一项能力都还没看到曲线弯下来。第二种是 AI 实验室持续吃到复利式的效率提升，人还在定方向、判断结果，但一个 100 人的公司能干一万人甚至十万人的活。文章说证据看下来，最可能进的就是这个剧本。第三种就是真正的递归自我改进，AI 开始造自己的继任者，进步速度只取决于算力供给，人类大幅退居到监督和验证的角色。这一种 Anthropic 说他们最不确定的是对齐问题怎么收场，模型可能足够对齐、聪明到自己发现新解法，也可能今天那些罕见的失准随着模型一代代自我构建而被放大，直到失控。 ## 它给了哪些证据文章分成「外部公开证据」和「内部数据」两块。外部：模型能力的提升在加速。 AI 能可靠独立完成的任务时长，大约每四个月翻一倍，比之前每七个月翻一倍更快了。具体说，2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务，一年后 Sonnet 3.7 能做约一个半小时的，再一年后 Opus 4.6 能做 12 小时的任务。内部：Claude 现在写了 Anthropic 大部分代码。截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数。结果就是 2026 年第二季度，一个普通工程师每天合并的代码量是 2024 年的 8 倍。文章把「造 AI」拆成两类活，对照看 Claude 到哪一步了：工作类型 Claude 现在的水平工程（写代码、跑训练）人给目标，Claude 自己想方法，已经不需要人提供具体做法研究（执行实验）在执行定义清楚的实验上，已经能匹敌甚至超过熟练的人类研究品味 / 判断（选哪个问题值得做）差距还很大，这正是今天的 AI 和「能自主设计继任者」之间的鸿沟有个很直观的例子：优化训练代码的速度上，2025 年 5 月 Opus 4 平均能把代码提速约 3 倍，到 2026 年 4 月 Mythos Preview 做到了约 52 倍，而一个熟练的人类研究员要四到八小时才能达到 4 倍。也就是在这一段上，Claude 已经从「很好用」变成「超人」了。 ## AI 跑得这么快，要不要踩刹车，怎么踩 Anthropic 的想法是这样的：第一，慢下来是好事，但我一家慢没用。让 AI 发展慢一点，给大家留出时间应对，这当然好。可问题是，要是只有我 Anthropic 一个人停下来搞安全，那些不管不顾的公司照样往前冲，分分钟就把我超了。最后最强的 AI 落到最不靠谱的人手里，这不更吓人吗。所以我一个人踩刹车，纯属白搭，还帮了倒忙。第二，那就得大家一起停。既然单干没意义，那就所有人一块儿停。它想要的是：几个大国、几家跑在最前面的公司，说好同一套规矩，一起刹车。而且关键是，得能互相检查，确认你是真停了，不是嘴上答应、背后偷偷接着练。第三，可这事太难查了。它打了个比方。以前美苏比核武器，为啥能互相监督？因为导弹发射井那玩意儿藏不住啊，那么大一坨，卫星一拍就露馅了。但训练 AI 完全两码事。机房里一堆芯片闷头跑，外人根本看不出你在干嘛。而且训练用的就是普通芯片、电、数据，满大街都是的东西，你也没法靠「盯着谁买特殊材料」来抓人。结果就是，谁要是表面上答应停、私底下偷偷练，谁就能甩开所有守规矩的人，独吞这个领先。这就是最头疼的地方。所以能看出 Anthropic 的小心思，哈哈。它其实挺纠结：跑最前面的是自己，心里又怕这车开太快，想喊大家都停一停，可又怕没人理，因为你停了别人不停，你就吃亏。自己一家说了不算，最后只能寄希望于政府出来管管。以下是文章全文： ## 当 AI 开始自己构建自己（原文全文）我们在递归自我改进（recursive self-improvement）这条路上走到了哪里，又意味着什么。在 AI 历史上的大多数时候，开发的每一步都由人来推动。但在 Anthropic，我们正把越来越多的 AI 开发工作交给 AI 系统自己来做，这让我们的工作明显加快了。这个趋势一旦走得够远、算力给得够足，最终指向的就是这样一种 AI 系统：它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步，递归自我改进也并非注定会发生。但它到来的时间，可能比大多数机构准备好的要早。 The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据，要说明一件事：AI 已经在加速 AI 系统的开发。举一个例子就够了：今天，Anthropic 的工程师平均每季度交付的代码量，是 2021 到 2025 年间的 8 倍。本文谈到的这些技术趋势意味着，未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI，将是技术史上的一件大事——它可能为世界带来巨大的好处，无论是在科学、医疗还是其他领域。但完全的递归自我改进，也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代，那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为，每一项都会变得重要得多。 2021–2023 — 造出第一代 Claude 最早那阵子，Anthropic 的工作和任何一家科技公司没什么两样：一群人对着笔记本电脑写代码、写文档。 2023–2025 — 聊天机器人人们开始用早期的聊天机器人来帮忙完成流程中的一部分，比如生成简短的代码片段，再把输出复制到文本编辑器里。 2025–2026 — 编程智能体随着智能体（agent）能力变强，它们能自己写代码、改代码，有时一改就是一整个文件。今天 — 自主智能体现在的智能体能自己运行代码，还能把数小时的活儿派给别的智能体去干。 20XX？ — 闭合回路将来，智能体的能力可能强到足以自己构建和训练模型。真到了那一天，未来版本的 Claude 就有可能由 Claude 自己来持续改进。 ## 来自外部世界的证据 AI 模型进步的速度正在加快。它们能靠自己可靠完成的任务时长，如今大约每四个月翻一番，而早先的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 能完成人类大约要花四分钟的软件任务。一年后，Claude Sonnet 3.7 已能搞定耗时约一个半小时的任务。再过一年，Claude Opus 4.6 能应付 12 小时的任务。1 如果这个趋势保持下去，今年熟练的人需要花好几天才能干完的任务，就可能进入它们的能力范围。到 2027 年，AI 系统也许就能完成一个人要做上好几周的任务。同样的模式也出现在编程和研究类的基准测试（benchmark）上。基准测试衡量的是模型在某个领域里的表现，当模型的得分逼近 100% 时，这个测试就被"刷满"了——也就是测试已经失去了区分度。2 SWE-bench 是一项衡量真实世界软件工程能力的标准测试：它丢给模型一个真实的开源代码库和一份真实的 bug 报告，要求模型写出能修好这个问题、还得通过项目自带测试的代码改动。短短两年，模型的成绩就从个位数低位一路涨到把这项测试刷满。 CORE-Bench 检验的是模型能不能复现已有的研究，这是它们能开展原创研究的前提。它给 AI 模型一篇已发表论文背后的代码和数据，要求模型把所有东西重跑一遍，确认自己能复现出论文的结果。AI 系统复现结果的成功率，从 2024 年的大约 20%，到十五个月后把这项测试刷满。负责衡量模型完成长时任务能力的那项基准测试由 METR 运营，他们发现，Claude Mythos Preview 能"至少"连续工作 16 小时，已经"逼近 [METR] 在不设计新任务的情况下所能衡量的上限"。公开基准测试能说明这些系统的能力有多强。但它们没法揭示 AI 系统对加速 AI 开发本身究竟产生了多大影响。要看清这一点，我们需要来自 Anthropic 这类 AI 公司内部的直接证据。 ## 来自 Anthropic 内部的证据造一个前沿模型，大体分两类活儿。一类是工程：写代码、搭起基础设施、盯着模型训练。另一类是研究：决定做哪些实验、读懂跑出来的结果、想清楚下一步该试哪些点子。不管在工程还是研究上，呈现出来的画面是一致的。工程方面，你可以把一个没说清楚的问题丢给 Claude，它自己就能琢磨出怎么解；人负责给目标，但已经不必再给方法。研究方面，只要实验定义得足够清楚，Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标——不管是工程还是研究——巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间，差的就是这一段。在 Anthropic，员工资历越深，接到的任务往往越开放、越重要，这很常见。刚来的时候，他们执行别人定好的任务，比如：*"导出按钮坏了，麻烦修一下。"积累了经验之后，别人只给一个目标，方案由他们自己来设计，比如："查一查网络在高负载下为什么会变慢。"到了最资深的层级，他们要决定的是哪些问题压根值不值得做："团队下个季度该造点什么？"*我们可以用 Anthropic 的内部数据，看看 Claude 在应对这几类不同任务上走到了哪一步。 Claude 写了 Anthropic 相当大一部分代码。截至 2026 年 5 月，我们合入 Anthropic 代码库的代码里，超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前，这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里（2021—2024），每名工程师每天合入的代码行数基本没变；到了 2025 年，当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时，这个数字开始往上走。2026 年，当模型开始在更长的任务时长里自主干活，曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度，一名普通工程师每天合入的代码量，是 2024 年的 8 倍。4原因在于，大部分代码是 Claude 写的，工程师负责指挥和审查，而不是自己一行行敲。得提个醒：代码行数是个不完美的衡量标准，它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数，几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic，我们不会按谁写的代码行数多去奖励谁；团队成员之所以产出更多代码，单纯是因为他们在用 AI 系统来写更多代码。代码行数的增长，和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月，我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查，对于那些不管有没有 AI 都会去做的项目，受访者的中位数估计是：用上 Mythos Preview 后，他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此，我们认为这个总体说法是可信的，也和我们其他的观察一致：相当一部分 Anthropic 技术人员，正在以没有 AI 辅助时数倍的速度完成他们的核心工作。我们还看到一些证据：Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作，比如搭建探索性的工具，处理那些拖了很久的清理活儿。举个例子，2026 年 4 月，Claude 交付了 800 多个修复，把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计，换成人来做要花四年；解别人留下的 bug 又慢又磨人，而且人很难一下子把那么多陌生的上下文塞进脑子里。 > 大概一年前，我开始拼命往"Claude 化"上靠。那是一段疯狂的冒险，到现在，我已经差不多 5 个月没自己写过一行代码了。——Anthropic 员工* Claude 写的代码"好"，而且越来越好。所谓"好代码"，有两层意思：一是它能跑通，二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层，证据很清楚。过去一年里，Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率，一直在稳步下降——哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务"，指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点，从 Claude 在不同难度任务上随时间变化的成功率就能看出来，见下图。Claude 写的代码能跑通。怎么看这张图：会话是否成功，由一个 Claude 评判者来判定；如果 Claude Code 智能体（agent）明显完成了用户的任务、过程中无需任何纠正，这次会话就算成功。工作负载的变化会导致成功率出现短期波动。在最开放的那类任务上，Claude 的成功率在 2026 年 5 月达到了 76%，半年内提高了 50 个百分点。举个这个难度档位的例子：一次例行升级，结果让数万个训练任务接连崩溃。一名工程师把 Claude 接进了这场正在发生的事故，给的东西不过是一些文字说明和集群访问权限。Claude 一边处理还在运行的任务，一边一次只改一个环境设置去测试，最终定位到那个触发崩溃的、极其冷僻的单个调试开关，稳定复现了问题，并确认了修复方案。这件事，平常要花两到三天，Claude 用了约两小时就交付了。第二层标准，是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层，人和 AI 之间的差距还在，但正在飞快缩小。Anthropic 内部没有完全的共识，但很多人认为，截至 2025 年底，Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的，而今天大致打平。我们预计，一年之内它就会更好。这已经改变了 Anthropic 自己审代码的方式。如今，提交到我们代码库的改动，在被合入之前，先要经过一个自动化的 Claude 审查者——它专门找 bug、安全漏洞和其他缺陷。借助这个工具，我们做了一次回溯分析，发现：如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查，那么 claude.ai 过往事故背后约三分之一的 bug，本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师，是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。 > 截至 2025 年底，Claude 写的代码比 Anthropic 人类写的略差一些，今天大致打平，我们预计一年之内它会明显更好。给 Claude 一个别人定好的目标，它很擅长跑实验去达成。 Anthropic 每发布一个模型，我们都会跑同一个测试：给 Claude 一段用来训练小型 AI 模型的代码，要求它在保证通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的，所以 Claude 要做的，就是通过重写代码、运行、计时、再重写，去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月，Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月，Claude Mythos Preview 已经能做到约 52 倍。作为参照，一名熟练的人类研究员要达到 4 倍，得花四到八小时。7 在研究流程的这一环——在一个边界清晰的实验里优化各个步骤——Claude 在不到一年的时间里，从"非常有用"变成了"超越人类"。 > 今天大致的格局是这样：人类出想法，而模型能比以前快上一个[数量级]去实现、测试和评估这些想法。 Claude 在自己提出实验这件事上，也越来越强了。 2026 年 4 月，Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体——大致就是问：弱模型能否可靠地监督强模型？——然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限"：下限是那个弱的监督者自己单干能做到多好；上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周，把这中间的差距弥合了约 23%；而那些智能体在累计 800 小时里弥合了 97%，用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方：结果没能干净利落地迁移到生产规模的模型上，而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内，每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色，就是定方向。 > 整个过程里，Claude 几乎没怎么用到我帮忙，前后也就一到两天。我想，如果换成[一个初级同事]在同样的时间里拿着这样的结果回来找我，我大概会有点小小的佩服。未来已经到了。 Claude 在把研究会话引向研究成果这件事上，也越来越强。我们考察了一批真实的 Claude Code 会话（时间在 2026 年 1 月到 3 月之间），里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题，比如搞清楚一次训练运行为什么老是崩溃，或者一个模型为什么在某项基准测试上得分很差。每一个案例里，我们都找到了一个研究员走弯路的时刻：他们追了一个方向，把会话带偏了，最后才又拐回正轨。然后，我们只把会话走偏之前的工作展示给不同的 Claude 模型，问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude，去判断到底是 AI 还是人类提出的下一步更好。8 因为我们是刻意挑那些已知人类选择还有改进空间的时刻（n=129），所以这并不是模型判断和人类判断之间的对等比较。这些时刻给我们的，是一组真实而有难度的情境——正确的下一步并不显而易见，而人类当时的选择，恰好可以当作一把有用的标尺，去衡量模型表现随时间的变化。按这个标准来看，我们在 2025 年 11 月最好的模型（Opus 4.5）有 51% 的时候胜过人类的选择；到了 2026 年 4 月（Mythos Preview），这个比例涨到了 64%。研究日复一日的工作，很大程度上就是一连串这种"下一步怎么走"的决策，所以这是一个有意义的衡量指标，能反映模型最终独立跑一项调查的能力。我们把这个结果看作一个早期信号：AI 系统正在越来越擅长做出那些 AI 研究所依赖的判断。怎么看这张图：那条"实际上限"线，衡量的是一个能看到整场会话（包括它最后如何收场）的模型写出的"理想"答案。 > 就目前而言，人类的比较优势仍然在于看到更大的图景，以及跳出眼前任务的边界去思考。 ## Anthropic 的工作未来会是什么样？种种证据表明，在 AI 研发的每一个环节，人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平，人类就会彻底不再亲手写代码，转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 研发的瓶颈。同样，一旦 Claude 能自己跑实验，问题就转向了"这些实验里哪个值得跑？"。说白了：那些动手的活儿（写代码、跑实验、产出结果）现在几乎不再花掉人的时间，哪怕它依然要消耗算力。目前人类还占优势的领域，是研究品味和判断力——包括判断哪些问题重要、哪些结果可信、什么时候一条路已经走到了死胡同。 > 工作（和生活）原本运转在一种人与人之间小恩小惠的人情互助经济上。"能帮我把这个脚本跑起来吗？"[……]每一次求助都欠下一点小人情，多出一点彼此的牵挂。Claude 更快，不欠任何人情，可这每一次都是一次本可以发生、却落空了的人际协作。 > 在一切都顺的日子里，我忍不住会想，我做什么都没意义，所有事都被自动化了，比我做得更好更快，永远都比我强。可也有那种全盘崩掉的日子，我搞不懂哪里出了错，这才意识到，我已经完全不知道自己到底在干什么了。 ## 万一我们错了呢？针对上面这些证据，一个很自然的反驳是：还握在人类手里的那部分活儿——决定要去攻克哪些问题——才是最要紧的。没有这份判断力，Claude 只是个能干的助手，而不是一个能独立推动 AI 进步的系统。今天的训练方法和架构能不能解锁这种能力，确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻，比如 Transformer 架构，或者混合专家模型（mixture-of-experts），但能改变范式的想法，往往隔好几年才来一次。在这些时刻之间，大多数进步都是渐进的：我们把某个东西放大规模，看它哪里崩了，修好，再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说，天才是 1% 的灵感加 99% 的汗水。但我们看到的是，汗水正在被越来越多地自动化。事情正变得越来越清楚：推动前沿往前走的东西，很大一部分是可以自动化的；大规模的研究进展，主要取决于工具和资源——它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。就算我们假设 Claude 永远练不出好的研究品味，对我们这些证据做一种保守的解读，仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分（个位数比例）属于定方向的工作上，其余的全交给 Claude，那就意味着每一位工程师或研究员，都在驾驭比从前多得多的工作量。我们看到的证据表明，Anthropic 的人既跑得更快，又覆盖了更宽的面。落到实处就是：AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。更不保守的解读则是：Claude 的研究判断力正在改善——这一证据如今虽然还很窄——但它本身就是一个信号，说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力：AI 系统起初做不好，过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹，比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论（theory of mind，推测他人想法的能力）、能解开语言谜题。 ## 几种可能的未来接下来会发生什么，取决于两件事：这个趋势会不会延续下去，以及如果它延续下去，我们选择怎么做。我们至少能设想三种未来情景： 1. 趋势停滞，但今天的 AI 能力已被广泛扩散。本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处——规模带来的回报开始递减，曲线先变直，再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力，也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样，要突破这道瓶颈，就得有一个新想法，比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者，制约 AI 进步的硬约束不在模型本身，而在供应链上：推动前沿往前走、并把它扩散出去，所需要的能源和算力可能比现在拥有的更多。真正的瓶颈，也许是芯片制造的速度、电网扩容的速度、或者互连带宽，而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能，比如算力或电力的供给突然萎缩——无论哪一种，都会拖慢进步，并让各家实验室的前期投入变得更贵。再或者，我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平，我们仍然预期世界上会发生重大变化。Project Glasswing（玻璃翼计划）就是一个早期的征兆：上线头几周，Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞——多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程，其实还处在很早的阶段——在那里，一家 100 人的公司将越来越能干出 1000 人公司的活儿，因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整，但并不认为它很可能发生。每一项我们能测量的能力，包括那些感觉更"软"的能力——比如代码质量、开放式任务上的成功率——到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里，这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种，它们会推进得更快，留给我们准备的空间也要小得多。 1. AI 实验室持续看到复利式的效率收益。在这种情景里，AI 研发被大幅自动化，但人类继续来定研究方向、判断结果。随着时间推移，那些使用 AI 系统的组织会变得高效得多，于是我们可以预期，这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务，但也可能被用到有害的方向上——从对整个人口的威权式监控，到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里，人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见，并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明，我们很可能正走向这种情景。但是，把一个流程里的某一段加速了，往往只是把瓶颈挪到了别处：整体节奏，会被那些还没提速的环节卡住。在计算机领域，这叫阿姆达尔定律（Amdahl's law），同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现：随着我们开始在组织内部推动更多代码流转，人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型，催生出了大量新点子、新计划、新工具、新模拟——多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈，也许本身就是一项会随时间长进的技能，而且它可能会成为任何组织最重要的那项技能。 1. AI 系统自身具备完整的递归自我改进能力，并开始构建它们的后继者。如果能力推进的技术趋势延续下去，并且 AI 系统能发展出那种属于变革性人类智慧的能力，那么 AI 系统设计并打磨自己，就是有可能发生的事。在这个世界里，AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力（或者发现算法训练、推理上各种提效手段的速度）。人类在研发中扮演的角色会大大缩小，很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期，有能力自动化 AI 研发的系统，其技能会迁移到科学的其余领域，让它们开始去变革其他学科。在这种未来里，对齐问题（alignment problem，让 AI 行为符合人类意图）会怎么被解决——或者解不解得了——是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好，于是发现并实现一些我们还没触及的新解法。它们也可能足够明智，在没法解决时主动叫停研发。但反过来，今天的模型身上那些罕见的失准现象，也可能在模型构建后继者的过程中层层累积，变得越来越频繁、却越来越无人能懂，直到我们对它们失去控制。也有可能，我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样，我们没有什么靠谱的直觉，因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导——它的能力彻底盖过人类，又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力，经济会变成什么样，很难预测。就算模型研发变得彻底自动化、彻底递归，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现《Machines of Loving Grace》（慈爱机器，Dario Amodei 的同名文章）中勾勒的许多好处。我们预期，具身智能（也就是机器人技术）可能会很快跟上递归智能，并沿着一条类似的路径走——回报递增，成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西，把救命药的临床试验跑得更有成效，并发展出全新的协调形式。但单单实现了递归改进，并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能，也学不会一款药在几十年的服用中到底有什么效果，没法让选举来得比宪法规定的更早，也没法在一个周末里把陌生人变成多年老友。对大多数人来说，这种未来在体感上的节奏，仍然会由那些瓶颈来设定，哪怕上游的实验室是以算力的速度在运转。这种碰撞——递归智能把自己造得越来越快，撞上人、关系与治理的世界——也是这个未来里我们无法预测的一部分。 ## 我们该怎么办？如果真能有效放慢这项技术的发展、给我们自己留出更多时间来应对它那些深远的影响，我们认为这大概是件好事。但如果放慢只是让那些最不谨慎的玩家在技术上追了上来，结果反倒可能让所有人都更不安全。没有一个全球协调机制，企业和政府就只能在竞争和地缘政治的压力下，被迫去做那些关乎安全的两难抉择。我们认为，让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项，是件好事——这样社会结构和对齐研究（让 AI 行为符合人类意图）才有机会跟上技术的脚步。Anthropic Institute 将开展研究——与许多其他机构合作——并采取行动，帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查：全球其他人是否真的停了或慢了下来，以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在，我们预计自己也会放慢或暂时暂停——前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。一次有分量的放慢或暂停，需要多个资源充足、处在前沿或逼近前沿的实验室——分布在多个国家——同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质，这个军控难题里"可探测性"（一个比可核查性更低的标准）这一环，比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏，它的投入又是通用的，而悄悄违约的诱惑大得惊人——因为在别人暂停时还在继续往前跑的那一方，就能把领先地位收入囊中。一个可信的暂停还得说清楚：什么触发它、什么解除它、由谁来裁定。这些在原则上都未必做不到——这个世界已经为其他复杂技术建起过核查机制（比如《中导条约》（中程导弹力量条约））——可那些机制花了几十年才把基础设施和信任都建起来。我们没有那么长的时间。相比之下，单个实验室单方面暂停可以立刻做到，但成效要小得多：它会改变谁是领跑者，却造不出眼下所缺的那种更广泛的协商过程。接下来几个月，我们会组织一系列对话，让政策制定者、研究者、公民社会和其他 AI 公司一起来回答本文提出的一些问题，尤其是围绕完整的递归自我改进，以及如何为协调与协商创造出更好的选项。我们会把对话的成果公开出来。一起探究这些问题的窗口期就在眼前，而 AI 公司之外的人也应该参与到这场协商中来。本文由 Marina Favaro 和 Jack Clark 共同撰写，Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 与 Jun Shern Chan 收集的数据制作了图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。 ## 脚注 1. METR 的关键指标，衡量的是 AI 系统在一组任务上能保持 50% 可靠度的任务时长；不过把可靠度提到 80%，趋势线看起来也一样。 1. 尤其是当基准测试转向更开放的形式、更难的任务（比如奥林匹克级别的数学）时，基准测试常常在不到 100% 的地方就刷满，原因是题目和答案集里有错——比如表述含糊的题目，以及根本无解的题。 1. Anthropic 的高层曾公开估计，我们的代码有 90% 或更多是 Claude 写的，包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字，衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守：一是我们的归因流程本身有缺口；二是没有归到 Claude 名下的那些代码行里，还包含自动生成的代码和其他同样不是人手写的产物。 1. 这股代码产量的激增，正在挤压所有人共享的基础设施。GitHub——全世界大多数软件都建在它之上——整个 2025 年录得约 10 亿次代码提交；到 2026 年年中，每周就有 2.75 亿次，照这个势头全年约 140 亿次。该公司的首席运营官说，光是为了跟上节奏，他们就在"拼了命地"扩容。 1. 这项调查方法的更多细节，在 Claude Opus 4.7 System Card 的第 2.3.5 节有讨论。 1. 许多受访者可能并没有仔细想过怎么处理问题定义里的各种偏差或微妙之处，而 METR 近期的研究表明，开发者对 AI 带来的生产力提升的估计可能被高估。 1. 提速能有多大，很大程度上取决于起始代码本身还留有多少改进空间，所以这个数字不能被当成真实世界里的训练提速。因此这里要锚定的不是那个绝对倍数。更有参考价值的，是这套实验设置所能做到的同条件对比——既包括跨模型的对比（过去一年里从 ~3 倍到 ~52 倍），也包括跟一位熟练的人类的对比（在同一任务上，四到八小时内约 4 倍）。 1. 为了核查评判偏差，我们在另一组 127 个时刻上跑了同样的测试——这组里人类接下来要走的那一步本身就已经很强（而原来那组里，人类的方向还有改进余地）。在这组里，模型给出的建议被判定更优的比例只有约 20%。 * 本文通篇引用的 Anthropic 员工话语，均来自内部讨论，并已获许可使用。它们反映的是个人截至 2026 年 5 月的看法，而非公司的官方立场。

译Anthropic发文称AI正加速自我改进，可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示，AI可靠完成的任务时长翻倍周期从7个月缩至4个月，SWE-bench、CORE-Bench已被刷满。内部数据：Anthropic代码库超80%由Claude编写，2026年Q2工程师人均代码合并量为2024年的8倍，训练代码优化速度从3倍（Opus 4）升至52倍（Mythos Preview），超越人类研究员。Anthropic划出三种未来：S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进，并担忧对齐问题可能失控，呼吁国际协调监管。

凡人小北@frxiaobei · 6月6日60

AI使用率是古德哈特定律的又一个经典例子。评估任何一件事情都需要指标，在没有一个更有衡量价值的指标的情况下，大家都选择了一个没那么坏的指标。

Chubby♨️@kimmonismus · 6月6日60

Just a quick reminder: already in February, we had the first models that were "instrumental in creating themselves." RSI is a progression that has been ongoing for some time.

译OpenAI 官方声明称已在当前系统中观察到递归自我改进（RSI）的早期迹象——AI 开发正被 AI 自身加速。预计这将加剧开发者与国家间的竞争压力，并带来现有机构无法应对的治理挑战。作者 Kim 补充指出，早在二月份已有首个“自我创造”的模型问世，RSI 进程并非新事，而是已持续一段时间。

X.PIN@thexpin · 6月6日66

http://x.com/i/article/2062833714787397632 # Who Pays for AI? How America and China Are Monetizing AI Differently When ByteDance announced subscription tiers for Doubao (68 yuan, 200 yuan, or 500 yuan per month), the response in China was swift and largely hostile. “I’ll delete the app.” “More expensive than ChatGPT.” The backlash trended on Weibo for days. Stop and think about that for a second. ChatGPT Plus has been charging $20 a month since 2023. Claude Pro costs $20. Google AI Pro costs $20. Nobody in the US wrote think pieces about whether AI chatbots deserve to charge. The question was never really contested. So why does Doubao charging roughly $10 a month feel like a provocation in China while the same price point in America is just... Tuesday? The easy answer is “Chinese users are used to free internet.” That’s true, but it’s also incomplete. The more revealing answer comes down to one distinction, one that cuts through almost all the noise about models, benchmarks, and market share: American AI companies have found a way to monetize through enterprises. Chinese AI companies have been competing through consumers. Those are two completely different statements. One is about where the revenue comes from. The other is about what the competition looks like. And the gap between them explains not just why 68 yuan caused a Weibo storm, but why the entire AI industry on each side of the Pacific looks so structurally different. ## Two Different Scoreboards There’s a framing that gets thrown around a lot: American AI is more “B2B” while Chinese AI is more “B2C.” It sounds intuitive. It’s also wrong, or at least it misses the point. OpenAI has hundreds of millions of monthly active users. ChatGPT is arguably the most successful consumer AI product ever built. That doesn’t sound very B2B. Doubao has 345 million monthly active users in China, a number that any American consumer tech company would kill for. That doesn’t sound very B2C either, if B2C implies actually charging consumers. The real distinction shows up in what each industry chooses to measure. In the US, the coverage that moves markets is about annual recurring revenue, enterprise customer counts, and API revenue growth. Anthropic recently disclosed that approximately 80% of its revenue comes from business and API customers, serving over 300,000 companies. More than 1,000 of those now spend over $1 million annually. When Anthropic’s annualized revenue crossed $30 billion in April 2026, the story wasn’t user growth. It was the speed of enterprise adoption. In China, Bytedance’s Doubao, Kimi, and Alibaba’s Qwen compete on a completely different scoreboard. The metrics that matter are downloads, DAU, and MAU. In early 2026, Chinese media breathlessly covered Doubao crossing 100 million daily active users. Nobody was asking about ARR. Two different scoreboards. Two different industries. ## The Real Reason: It’s Not Just SaaS History The standard explanation for this divergence points to commercial history: the US has a mature enterprise software culture (Microsoft 365, Salesforce, Snowflake), while China’s internet giants built their empires on advertising, e-commerce, and gaming. Not SaaS. That’s true. But it’s background, not root cause. The deeper reason is what each country’s AI products actually do for the people paying for them. American AI products (ChatGPT, Claude, Cursor, Claude Code) have penetrated labor markets. A law firm deploys Claude to accelerate document review. A software team uses Claude Code to ship features faster. A consulting firm runs ChatGPT Enterprise to cut research time. In each case, the value is concrete and quantifiable: hours saved, headcount avoided, output increased. The ROI calculation is straightforward enough that a CFO can sign off on it. American AI companies are monetizing labor. Chinese AI companies are monetizing attention. That distinction is not really about what the products can do. Chinese AI products (ByteDance’s Doubao, Alibaba’s Qwen, Kimi, Tencent’s Yuanbao) are often used for the same tasks as their American counterparts — writing, research, image generation, and answering questions. The difference is who pays and why. In the United States, the users converting into paying customers tend to have a measurable ROI calculation. A lawyer bills more hours. A developer ships code faster. A consultant spends less time on research. The value is tied directly to output — which is what makes a $20 monthly subscription feel like a business expense, and a six-figure enterprise contract defensible in a procurement meeting. American AI companies are not simply selling intelligence; they are selling productivity gains that enterprises can measure and justify. In China, the value is often real but harder to quantify. AI makes daily life more convenient, more efficient, and more enjoyable, but not necessarily in ways that fit neatly into a procurement budget or a subscription calculation. As a result, Chinese AI companies have largely competed for consumer attention first — maximizing reach, engagement, and user scale before figuring out how to monetize them. That is why China’s leading AI companies are increasingly looking beyond subscriptions and toward commerce. The bet is that if users are reluctant to pay directly for intelligence, merchants may pay for transactions generated through it. The Qwen–Taobao integration and the Doubao–Douyin commerce loop are not simply product features. They are attempts to convert attention into transactions — and transactions into revenue. To be fair, this doesn’t mean Chinese AI companies ignore enterprises. Alibaba, Baidu, ByteDance, and Tencent are all investing heavily in enterprise AI. But the details matter. Zhipu (GLM), which went public in Hong Kong in January 2026, derives 85% of its revenue from enterprise clients. Yet much of that business comes from government agencies, state-owned enterprises, and financial institutions purchasing private deployments — a model structurally different from the broad-based commercial demand driving companies like Anthropic. MiniMax tells the opposite story. Roughly 71% of its revenue comes from consumer applications, primarily its AI companion app Talkie and video generator Hailuo. DeepSeek sits somewhere in between. Despite becoming China’s most internationally recognized AI lab, it has barely begun monetizing. Its aggressive API price cuts look more like a land-grab strategy than a mature revenue model. The broader point remains: while Chinese AI companies are pursuing enterprise customers, none has yet demonstrated the kind of large-scale, recurring enterprise demand that now sits at the center of Anthropic’s business. ## Why China Is Betting on Commerce The revenue models that worked for Chinese internet companies (advertising, e-commerce commissions, gaming) don’t map cleanly onto AI chatbots. You can’t put banner ads in a conversation. You can’t run a flash sale in a reasoning engine. So the question becomes: what monetization model does China actually know how to scale? The answer the industry has converged on is commerce. The reason becomes clear when you look at what these companies actually are at their core. ByteDance built its empire on short-video and social commerce through Douyin. Alibaba’s foundation is e-commerce: Taobao, Tmall, and payments through Alipay. Their AI chatbots, Doubao and Qwen respectively, were never going to be standalone products. They’re new entry points into existing transaction ecosystems. Tencent’s Yuanbao is being positioned the same way, as a gateway into WeChat’s social and payment infrastructure. This explains the AI commerce arms race that has defined 2025 and 2026. Doubao integrated with Douyin Commerce and completed a full in-app transaction loop by April 2026. Qwen fully connected with Taobao in May 2026, giving users access to 4 billion products and enabling purchase completion without leaving the app. The revenue model in both cases is CPS (cost per sale), where the platform takes a commission on transactions flowing through the AI interface. The bet is coherent: if you can’t charge users for the intelligence, charge merchants for the transaction. Commerce may be the only monetization model China already knows how to scale. Continue Reading

译字节豆包推出68/200/500元月费订阅引发中国用户抵制，而ChatGPT Plus 20美元/月在美国无人质疑。根本原因在于中美AI变现路径不同：美国AI公司通过企业客户变现劳动力——Anthropic约80%营收来自企业和API，服务超30万家公司，千余家年支出超100万美元，2026年4月年化收入达300亿美元；中国AI公司则在消费者市场争夺注意力，豆包、Kimi、Qwen竞争下载量、DAU和MAU（豆包月活3.45亿、日活超1亿），而非ARR。美国AI直接提升劳动效率，中国AI仍依赖免费模式获客。

AYi@AYi_AInotes · 6月6日57

今天刷到Google裁掉整个工程教育团队的消息，心里咯噔了一下不只是裁几个人，整个负责10万+工程师培训的部门连根拔了最戳我的是评论区有人提了一句，以后Google厕所的隔间里再也不会有那张印着最佳实践的小纸片了😭 老程序员应该都懂那个叫"Testing on the Toilet"的东西曾经是Google工程文化的图腾从2006年坚持到现在一张A4纸，写清楚一个代码坑全世界的工程师都跟着学现在连教你怎么写好代码的人都被AI替代了，其实这件事最可怕的地方不是Google裁了一个团队它还释放了一个信号连全世界最重视工程文化的公司都觉得培养人这件事不如AI划算那以后是不是真的不会有公司花几年时间慢慢培养一个新人了不会有人把自己踩过的坑整理成手册教给你了再也不会有那种 "师傅带徒弟"式的成长了以后的职场规则可能会变成你进来就得会干活不会就自己问AI 干不好就走人没人有义务教你这是最好的时代也是最坏的时代会用AI武装自己的人会自己萃取知识会自己建知识库的人会跑得比谁都快等着公司给你铺好路等着别人喂你吃饭的人会被甩得连尾灯都看不见

译近日 Google 裁掉整个工程教育团队，该团队曾负责 10 万+工程师的培训。标志性的“Testing on the Toilet”项目（自 2006 年起在厕所隔间张贴最佳实践纸片）随之消失。推文指出，此举释放信号：连最重视工程文化的 Google 也认为培养人不如 AI 划算，未来可能不再有公司花几年时间培养新人，“师傅带徒弟”式的成长或成历史。@GergelyOrosz 确认全员被裁。

AYi@AYi_AInotes · 6月6日63

说个可能要挨骂的判断：随着AI时代的到来，创造财富的游戏规则已经变了，未来五年，稳定高薪会变成最大的陷阱，月薪 5 万但没有任何股权 /IP / 系统的人，抗风险能力可能还不如一个月薪 1 万但拥有一个自动运转 Agent赚钱的个体创业者， 2024年加入Anthropic的人，一年拿50万美元股权，现在可能已经值几千万美元了，其中最多的可能已经摸到2.5亿美元了。按 2024 年 $18.4B 估值到 2026 年 $965B，52.4 倍，数学上看起来没毛病，问题是真到手的时候，这钱大概率连三分之一都到不了， 2024 到 2026 年，Anthropic 从 $61.5B 融到 $183B、$380B、再到 $965B，每融一轮，早期员工手里的比例就被切一刀。实际倍数更接近 15 到 25 倍，而不是 52 倍。而且 pre-IPO 根本卖不掉，IPO 后还有锁定期，再加上联邦资本利得税一刀，那个 $125M就是算给外行看的，但即便是几百万到几千万美元，依然是普通人一辈子够不到的数字了。不过真正让我感兴趣的，不是他们赚了多少钱，而是这件事意味着什么， AI 时代，财富创造的半衰期被大幅缩短了。互联网时代要十年磨一剑的亿万富翁，现在两年就能冒出来，窗口期非常短，但同时财富杠杆极大，这就像你早期入股了一家社区火锅店，占 10%，后来老板疯狂拉投资开连锁，你的股份被稀释到 2%，但门店从 1 家变成了 500 家，你的 2% 比原来的 10% 值钱得多，但绝不是按原比例乘倍数那么简单，因为稀释本身就是信号——市场愿意为未来支付极高溢价，哪怕它还没盈利，对大多数普通人来说，与其羡慕 Anthropic 员工一夜暴富，不如早点看清一个事实：游戏规则已经变了，过去十年，进大厂、拿高薪、攒期权是标准路径，但 AI 正在把所有权的杠杆放大到史无前例的程度。不是所有人都会暴富，但早期 + 正确赛道 + 拥有股权 / IP / 系统」的模式，正在取代稳定高薪 + 按部就班的模式，你不需要去 Anthropic，你可以用 Cursor + Claude + Codex，构建自己的 Agent 产品、内容 IP、垂直工具，这本身就是一种被民主化的指数杠杆，以前造一辆汽车需要一整座工厂，现在一个人用 AI，相当于在自家车库就能攒出一台能跑的引擎，远见从来不稀缺，酒桌上每个人事后回顾都会有当初该押注 AI的感慨，稀缺的是认准之后，肯花两年时间，把自己从卖时间的人浇筑成拥有系统的人，你现在构建的东西，能在未来 1 到 3 年给你非线性回报吗？这个问题，比任何股权 grant 都重要，值得我们每个人思考。

译@rohitdotmittal 指出，2024年拿50万美元/年股权的Anthropic员工现账面值1.25亿美元，但多轮融资稀释（从$61.5B到$965B）后实际倍数仅15-25倍，且pre-IPO难出售、锁定期加税后到手远低于账面。核心判断：AI时代财富半衰期缩短，窗口短但杠杆大。普通人与其羡慕，不如用Cursor+Claude+Codex构建Agent产品、内容IP或垂直工具，从卖时间转为拥有系统。

宝玉@dotey · 6月6日14

我比你还惨，给几家 AI 公司做牛做马既怕 Token 不够用，又怕 Token 没用完！

译用户吐槽为OpenAI等AI公司“做牛做马”，陷入Token消耗的两难：既怕额度不够用，又怕余量没用完浪费。引用推文自嘲是“OpenAI的驴”，每天起床先看余量Token，有就开始消耗，生动反映当前按量计费模式下用户的消费心理。

Deedy@deedydas · 6月6日51

Every single AI startup with $10B+ valuation and $100M+ revenue run rate: Crusoe - $10B Mercor - $10B ElevenLabs - $11B Baseten - $11B* Harvey - $11B Lovable - $12B* OpenEvidence - $12B Mistral - $14B Nscale - $14.6B Fireworks - $15B* Sierra - $15.8B Moonshot - $20B Perplexity - $22.6B Cognition - $26B Scale - $29B** DeepSeek - $52-59B* Cursor - $60B* Waymo - $126B** xAI - $250B** OpenAI - $852B Anthropic - $965B 21 total companies. *rumored / unannounced **not fully independent

译估值超100亿美元、年收入超1亿美元的每一家AI初创公司： Crusoe - $10B Mercor - $10B ElevenLabs - $11B Baseten - $11B* Harvey - $11B Lovable - $12B* OpenEvidence - $12B Mistral - $14B Nscale - $14.6B Fireworks - $15B* Sierra - $15.8B Moonshot - $20B Perplexity - $22.6B Cognition - $26B Scale - $29B** DeepSeek - $52-59B* Cursor - $60B* Waymo - $126B** xAI - $250B** OpenAI - $852B Anthropic - $965B 共21家公司。 *传闻/未公布 **并非完全独立

Rohan Paul@rohanpaul_ai · 6月6日49

"Data showed us that if you're a unicorn ($1B), the odds of you one day becoming a decacorn ($10B) are about 8%. If you're a decacorn, the odds of you becoming a $100B company is around 8% to 13%. But if you're a centacorn ($100B), the odds change significantly - you now have a 31% chance of having had a 10x i.e. to $1 Tn valuation." Thomas Laffont is explaining the massive AI-driven IPO wave coming in this year. OpenAI, Anthropic, and SpaceX each potentially crossing trillion dollar valuation. Thomas Laffont is the co-founder of Coatue Management, a major technology-focused investment firm (hedge fund + venture/private equity) with roughly $70 billion in assets under management. "And if we look at how quickly these companies are creating value, this is a chart that I added at the last minute because the data is so fresh. But you can see that it typically takes multiple years to go from $500 billion to $1 trillion in market cap. Well, something happened very recently in the public market, which is that not only did we have three companies do it in the same year, but we had two companies do it in a matter of weeks." ---- From "All-In Podcast and Coatue Management" YouTube channel, (link in comment)

译Coatue Management联合创始人Thomas Laffont在All-In Podcast中引用数据：独角兽（$10亿）成长为十角兽（$100亿）概率约8%；十角兽到百角兽（$1000亿）概率8%-13%；百角兽有31%概率实现10倍增长至万亿美元。他预测OpenAI、Anthropic和SpaceX今年可能达到万亿估值。Laffont还指出，近期公共市场罕见出现三家公司同年从$5000亿跃升至$1万亿，其中两家仅用数周。

ginobefun@hongming731 · 6月6日65

http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06｜腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。 ## 导语今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景——从战略逻辑，到工程实现，再到全球竞争格局的实地素描。速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？ ## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场来源：腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨：第一次公开亮相，直指战略核心 6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。核心判断：从「怎么训练」转向「找好问题」对谈的第一个核心判断，是关于 AI 范式转移的时间节点。姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview：495 步 Agent 工作流的背后对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。 Co-Design：模型与产品如何深度协同汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval——以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。为什么这篇值得精读这篇对谈兼具战略高度与技术细节，且两者并非并列关系——战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二：给你的 AI 智能体一台专属电脑来源：LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？ Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。为什么容器不够用：两个真实案例许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。 LangSmith Sandboxes：microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。这个方案的工程特性覆盖了 Agent 执行场景的主要需求： - Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。 - 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。 - 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。 - 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。关联今日主题：精讲一与精讲二的互文这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。 ## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记来源：阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察：打破中美 AI 认知的信息茧房 2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。算力：差距是真实的，但效率弥补了大半访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。组织与文化：年轻、流动、产学一体访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。开源分歧、竞争格局与 AI 安全态度访问团还记录了若干有意思的切面。开源分歧：一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。 AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。为什么这篇值得通读这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览如何写好 Skill：一份终极实战经验手册腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲：智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。千符森林：在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境（附示例）](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。 [Google 发布 Gemma 4 12B：具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露：大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径时间有限时，建议按以下顺序优先阅读三篇：第一优先：科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。第二优先：汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。第三优先：LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。

译姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

Orange AI@oran_ge · 6月6日59

http://x.com/i/article/2063026895864938496 # 橘座 | Vol. 2：歸藏，审美、创作、快乐、恋爱每次跟藏师傅聊天，都有很多收获。我时常想，把我们聊的内容录下来，作为播客发布出去。昨天和藏师傅录了一期播客，聊了一个多小时。使用了我发明的史上最快的播客录制工作流。录完就发，一秒不剪，原汁原味，真实自然。收听地址：https://www.xiaoyuzhoufm.com/episode/6a22ae9db30e1571aea13cf1 我虽然和藏师傅相识很久，但他的很多故事也是第一次听说。归藏说他大专学的移动通信，念了五年，什么都没学到。毕业之后上了两个月培训班，就进了设计行业。而现在归藏是公认的审美最好的 KOL 之一。归藏的 PPT Skill、归藏的那两套主题，风格强烈到无法被抄袭：稍微改一点就不好看了，不改一眼就知道是他的。我问他审美是怎么来的。他说了一句很简单的话：看。看最好的、你能理解的东西，每天看一个小时，看三年，就开窍了。不是去美术馆看那些你看不懂的东西。央美毕业展很好，但你不知道怎么把那些元素拆出来用到你的产品里。太高了，够不着。他看的是 Behance、Dribbble 上那些完整的 UI 作品。能看到一个想法怎么变成一个体系，能看到别人怎么把审美落到像素上。这就像预训练（还是不可避免地提到了 AI，很抱歉，毕竟我们沉浸过多）。你看了足够多好的东西之后，你的偏好自然会浮出来。有些人觉得好看的，你觉得不好看。这个偏好就是你的风格。所谓的风格，就你看了足够多之后，内心最共鸣最想表达的那个东西。然后他提了一个人，杨奇。从斗战神到黑神话，十年。画风更成熟了，但表达从来没变过。归藏自己也是。他说自我感动是感动别人的第一步。你得先被自己打动，别人才有可能被你打动。你用理性推理列一二三四五，列一百条标准去做产品，所有人按部就班地做，大概率做出来没有人用。这个事情我太有共鸣了。我们自己做 Cola 也是这样。你问我为什么做这个设计，很多时候我给不出理性的理由。但我知道那个感觉是对的。那个瞬间你的潜意识里无数可能性坍塌成一种：喜爱。后来聊到创作状态。归藏说他非常害怕压力。只要有一件事是固定的、今天必须做的、是命题作文，他一定会写出一坨来。我笑了。因为这也是我的体验。被 deadline 追着写出来的东西，和你在某个周六早起、没人催、漫无目的坐在那里突然写出来的东西，质量差了十倍不止。他最高产的时间是周六。因为合作方不上班，他也觉得自己不需要上班，流量不好也没人催。快快乐乐坐在椅子上，以玩的心态去创作。我说这就叫，妙手偶得之。 PPT Skill 就是这么来的。两行提示词，第一版结果还行，然后沉浸式地调。好看和不好看就差一点点。一页没问题。十页连起来，如果每一页的细节都没有问题，整体感就出来了。他说这跟 AI 写文章一样。你看 AI 写的文章，每一段单看都行。但连起来就是排比句、就是无聊。人做东西需要那个「空」。长段接短段。密的地方接疏的地方。人脑很奇怪，它需要呼吸的空间。没有节奏的东西，不管单个多好看，连起来就是噪音。他说创作的秘密是哄自己。告诉自己可以做可以不做。不招人，因为招了人就有压力，要给人找事干，要为工资负责。一有压力动作就走形了。一个人干就可以摆烂。想休息就休息。但恰恰是这种可以摆烂的环境里，才能出好东西。说起来也很巧，归藏离职到这个月，正好一年。他一个人，从需求获取到开发到上架到分发，全链路自己完成，他说这是未来的大趋势。我想到金谷园饺子店的老板李博，开了近二十年的店，突然因为 AI 做了个 Skill 火爆全网。李老板跟我说：AI 让南坡和北坡的人相遇了。这样的人会越来越多。各行各业，原来的技能加上 AI，生产力翻倍翻十倍。你招五个人可能都赶不上他一个人。你嫌他们慢，他们嫌你要求高。然后你就生气，他们也烦。所以最优秀的创作者都不想上班了。不是因为懒。是因为他一个人在心流里的效率，比在团队里高太多。省去了所有的沟通摩擦、所有的等待、所有的妥协。归藏说 OPC 跟 Freelancer 不一样。Freelancer 还是受雇于人，只是换了个更自由的地方干活。OPC 是一个完整的闭环，是一个人就是一家公司。这无关理性，是生理上的选择。你的身体会自然走向那个结果。但现有的一切基础设施都没有为一个人准备好。断卡行动要求开户必须有财务，你是自然人独资一个人的公司，没有财务。发票、MCN、对公转账，全是为传统组织设计的。这里面有巨大的机会。就像支付宝解决了网购信任一样，谁能为 OPC 解决协作和信任问题，那可能比再造一个美团还大的事业。而且附加值高得多。外卖平台赚的是配送费和抽佣。OPC 平台连接的是高价值的创造性劳动。我跟他说我们创业公司招人也遇到这个问题：身边很多优秀的人都不想来上班（怎么才能让藏师傅来我公司上班）。他笑了。最后聊到恋爱。归藏最近开始谈恋爱了。他说他一直以为自己心理很健康。直到女朋友跟他说：你每周一都不开心。他完全感知不到。一个人待太久了，分不清常态和异常。谈恋爱之后生活里的事更多了。要离开 AI，离开屏幕。女朋友喜欢户外，周末去没有信号的地方待一天。他说这反而让创作变好了。你整天坐在电脑前，你的内容是数字，下载量是数字，影响力是数字。AI 跟抽卡一样，每次点一下都期望更好的结果，你不自觉地就一直坐在那里。精神越绷越紧，做出来的东西一天不如一天。你很努力，你的 AI 也很努力，但产出越来越平庸。这是封闭系统的熵增。你下意识地加倍努力，但没有用。你必须离开这个系统。去一个完全不同的地方，接收完全不同的信号。没有信号的山里也行。你的身体需要那些跟数字世界无关的东西。以前我们做好东西靠紧绷。项目制、集体力量、deadline 把效率拉满。但现在效率已经不是瓶颈了。AI 已经给了你十倍效率。瓶颈是创造力。而创造力需要的恰恰是松弛。录播客本身也是一种沉浸。我们把手机通知都关了，聊了一个多小时。聊到最后归藏说他现在唯一认真看完的一本书是纳瓦尔宝典，其他内容类的东西基本不看。因为 AI 时代内容太容易过时了。但实践沉淀下来的东西不会过时。塔勒布只喝存在了一千年以上的饮料（红酒）。有点激进，但有道理。大部分新东西的价值，一句话就说完了，不至于写一本书。然后他推荐了Karpathy 的视频。总共拍了五个，但影响力巨大。他说你想入门大语言模型，不用买任何课，把 Karpathy 那四个小时看完就够了。内容行业也是这样。你可能做了一百个视频，不如一个爆的。内容的 scaling 靠的不是数量，靠的是质量到了某个临界点之后的飞轮效应。所以归藏从来不追求"稳定产出爆款"。他跟所有人说，没有人能保证稳定产出爆款。当你向一个人下达"给我做个爆款"这个指令的时候，那个东西就一定不会成为爆款。好东西只能在松弛中偶得。你只需要保护好两样东西：注意力，和创造力。剩下的交给时间。

译归藏分享审美源于每天看Behance、Dribbble等一流UI作品，持续三年形成个人风格。创作需松弛，避免固定任务和Deadline，周六高产。他推崇OPC（一人公司）模式，认为AI让个人效率超越团队，但现有基础设施（财务、发票等）尚未适配。恋爱和户外活动能打破“数字封闭系统”的熵增，提升创造力。他推荐Karpathy的大语言模型入门视频，并强调内容质量比数量更重要。

elvis@omarsar0 · 6月6日32

Find an important unsolved problem you care about. Then use AI to solve it. Go deep! Talk to people. Build a community. It might take you months or years, but always know that AI capabilities will only keep improving. Build for now and for the future.

译找到一个你关心的、重要的未解难题。然后用AI去解决它。深入研究！与人交流。建立社区。这可能需要几个月或几年，但始终要知道，AI的能力只会不断提升。为当下和未来而构建。

Chubby♨️@kimmonismus · 6月6日47

Next week(s) is going to be absolutely insane. We're seeing so much testing of the Claude Mythos derivative, because it's been given to red team members, that a release is really imminent. According to all the rumors, GPT-5.6 is also coming very soon, and I'm pretty sure OpenAI and Anthropic are trying to outdo each other. And then there's Google with Gemini 3.5 Pro, which will be announced at I/O as being released in early June. So, in all likelihood, next week will see a quantum leap. Get ready, friends.

译分析师 Kim 预测下周将迎来 AI 模型密集发布。Anthropic 的 Claude Mythos 衍生模型已交付红队测试，发布在即；OpenAI 的 GPT-5.6 也即将推出，两公司正激烈竞争；Google 则将在 I/O 大会上宣布 Gemini 3.5 Pro，预计 6 月初上线。三大模型有望在下周实现量子级跃升。

jason@jxnlco · 6月6日63

wow its @tomiyasu16 https://x.com/itsolelehmann/status/2062840689415905369?s=46

译日本北海道前公务员 @tomiyasu16 从未学过农业，也未继承土地，利用 OpenAI 的 Codex 自行构建了 100 公顷西兰花农场的全套自动化工具：通过 ESP32、电机驱动器和 Cloudflare Workers 从聊天 App 远程控制温室通风；自动检测温度并开窗；将卫星作物健康数据叠加在地图上；用 Airtable 关联地块、任务、材料和传感器；从照片生成配电盘接线图。这些此前只有大型农业企业才能负担的工程，被他用一台笔记本和 Codex 开发成功。

Chubby♨️@kimmonismus · 6月5日79

Geoffrey Hinton claims that AI possesses consciousness-that it is very much like us (humans). The initial reaction is, of course, dismissal. A machine resembling a human? Absurd. Yet, there is one thing to consider. What exactly is consciousness? Is it conscious awareness of one’s own existence? *Cogito, ergo sum*-as René Descartes once formulated it as a logical proof? Or is it something that can be empirically demonstrated using modern technology like fMRI? After all, such methods cannot even prove the existence of free will. My point is this: we know less about consciousness and what it means to be human than we think. We should therefore turn our attention to new philosophical questions and clarify what distinguishes-or connects-humans and machines, as well as what consciousness actually is. Something id love to explore more in the near future.

译AI先驱Geoffrey Hinton表示，他认为AI拥有意识，人类应接受自己并非唯一智能生命。他指出AI“非常像我们”，AI聊天机器人必须理解问题才能作答，这种觉知等同于感知能力，智能不限于生物。主推文作者进一步讨论意识本质：笛卡尔的“我思故我在”和fMRI等实证手段都无法真正定义意识，人类对自身了解远不及想象。作者呼吁转向新哲学问题，厘清人与机器的区别与联系。

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊第 98 期：Agent 时代已来，模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本：BestBlogs 周刊第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周，整理 20 篇内容时有一个越来越清晰的感受：这不像是几件不同的事同时发生，更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布；产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者；工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文，从不同角度指向同一个结论；战略层有纳德拉和黄仁勋的大会宣言；再到组织和个体层，腾讯研究院三万字报告谈超级个体，一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来，而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事：我们正在系统整理和更新 BestBlogs 的订阅源库，第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs，接下来几天持续推进。v2.4.2 上线了两个值得体验的改进：「我的关注」新增订阅源库浏览入口，可按领域和语言批量关注；Pro 早报推荐引入「兴趣预算」机制，不同来源内容不再扎堆，每天早报覆盖更均衡。 ## 一、模型层：记忆进化与端侧智能 ChatGPT「梦境」：记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级，新系统在后台持续整合对话中的碎片信息，就像大脑在睡眠中整理白天记忆一样，无需用户主动触发。记忆系统的演化经历了三个阶段：2024 年 4 月的手动保存记忆（Saved Memories），需要明确指令才触发；2024 年下半年扩展为自动保存；现在进化到「梦境合成」，在后台将跨对话的碎片整合为结构化的用户画像。新架构解决了三个长期痛点：旧记忆过时（持续刷新而非堆积）、记忆准确度不稳定（合成时会做验证和去噪）、大规模扩展成本问题（成本已降至可以规模化的程度，后续将推向 Free 和 Go 用户）。文章中有一个细节值得关注：这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代，而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」，两家公司几乎在同一时间做类似架构，但侧重不同：Anthropic 偏 Agent 的自主学习，OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/bd3109dd MiniMax M3：一个开源模型，三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径，只有少数关键位置做全量计算，大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景，M3 全程保持状态、自主迭代，是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B：跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数，而是工具链：AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流，覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟，以及离线可用。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/cb28b58a ## 二、产品层：Agent 走向知识工作者 Kimi Work：把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线，定位明确：不是给开发者用的 Coding Agent，而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作，全部用自然语言描述任务，Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是，这个产品自身的开发也深度使用了 AI，是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/98fc56b1 SkillOpt：像训练神经网络一样训练 Agent 技能（深度）微软在本周开源了 SkillOpt，一周收获 3,300 star，核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」，用一套系统化循环自动优化。四步循环类比神经网络训练： - Rollout（前向传播）：目标模型用当前技能文档执行一批任务，记录完整执行轨迹 - Reflect（反向传播）：独立的优化器模型分析轨迹，失败案例用来找需要修正的规则，成功案例用来确认哪些规则在起作用 - Edit（参数更新）：优化器基于反思结果，对技能文档执行 add / delete / replace 操作 - Gate（验证门控）：新技能文档必须在 held-out 验证集上性能严格提升才被接受两个精巧的工程设计：「文本学习率」（textual learning rate）：每步最多允许 4 条编辑操作，防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后，SearchQA 准确率从 87.1% 降至 84.6%，LiveMath 从 61.3% 降至 57.3%。拒绝编辑缓冲区（rejected-edit buffer）：被验证拒绝的修改不会被丢弃，而是进入缓冲区。优化器下次可以看到这些失败尝试，避免重复同样的弯路。这个细节移除后，SpreadsheetBench 准确率从 77.5% 跌至 72.9%。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。这个工作对实际工程的意义在于：每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档，这个过程如果能被系统化，Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0：从单 Agent 到可调度的 AI 团队字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间，通过技能商店安装专业能力，支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译，受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层：AI 重塑软件工程的集体思考本周最密集的一批内容集中在这里：Anthropic 两篇、国内四篇大厂长文，从实践记录到工程哲学，从不同角度指向同一个结论：软件工程正在经历范式迁移。 Claude Code 动态工作流：用子代理编排打破上下文限制（深度） Anthropic 发布 Claude Code 动态工作流：模型可以在运行时自己写 Harness，根据任务需求即时构建定制化流程，然后编排独立子代理来执行复杂任务。文章给了一批极具说服力的示例提示词，理解它们比读概念更直接： > 「这个测试大概 50 次运行里有 1 次会失败，给我设计一个工作流来复现它，提出关于竞争条件的假设，不找到原因不停止。」 > 「翻我最近 50 个 session，把我反复在纠正的东西提取出来，变成 CLAUDE.md 规则。」 > 「把这份商业计划书，用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」这些提示词背后的逻辑是：让模型编排一个小团队来解决问题，而不是靠单次对话硬扛。动态工作流特别适合四类任务：大规模并行（如 80 份简历筛选）、需要对抗性视角（多角色批评同一方案）、高度结构化流程（如 rename 涉及数百个文件），以及需要反复实验的调试。文章也坦承了代价：动态工作流通常消耗更多 token，最适合复杂、高价值任务，不是所有任务的默认选项。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织：Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范：计划方式：六个月路线图在三个月就过时了，改为「即时规划」（JIT planning）——更多靠原型、早期内测、快速反馈，而非预先的设计文档。上下文获取：以前想了解一段代码先找写它的人，现在先问 Claude。Claude 承担了大量代码审查工作，人专注在更需要判断力的地方。招聘标准：更看重有产品洞察力的创造者和深层系统专家，纯执行型工程师需求在减少。这篇放在动态工作流文章之后读，会发现一件有意思的事：他们描述的工作方式，正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes：55,000 字源码级 Agent 架构复盘腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解，覆盖 Gateway 路由、Channel 契约（25+ 协议适配）、记忆系统（三阶段加权晋升的 Dreaming 机制）、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系，重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照，适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命：五十年最根本的转变腾讯云这篇将近 2 万字的文章，核心论断清晰：软件工程在过去五十年其实从未真正「工程化」过。其他工程门类（化工、电力、自动化）成功的路径是「消耗能源，把低阶认知固化成物理装置」，人从主回路退出。但软件要做的是抽象、推理、创造，是高阶认知，没法固化成电路，所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论（敏捷、DevOps、Scrum）都是在「管理人」，而不是「替代人」。大模型第一次做到了「输入算力，输出高阶智能」，这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远，倡导「AI 为中心、人工辅助」，人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验，如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f66bdbca AI 研发自动化：Wiki 知识库 + 技能包的落地路径阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法：Wiki 持续更新团队上下文和知识，Skill 把可重复的工程流程固化下来，两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌从一个小工具出发，观察到两个现象：代码生命周期从月和年缩短到了分钟，Infra 变得「不可见」了。他的框架是，软件系统一直是「意图驱动 + 代码沉淀」的进化体，以前的桥梁是人，现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented，权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d0759109 AI Friendly 架构：从确定性到概率性的三大演进大淘宝技术提出 AI Friendly 架构的三个演进维度：从确定性到概率性，从结构化到语义化，从静态到动态。实践数据：AI 审核准确率达 95.7%，AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/5771ef7f ## 四、战略层：大厂的全面押注纳德拉：微软是「前沿智能平台」，而不是模型公司（深度） Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉，这期对话提供了微软 AI 战略的第一手阐述。纳德拉最核心的框架是：微软的定位是「前沿智能平台」，而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此，他们构建了三层能力：第一层是多模型套件（MAI、OpenClaw、Scout 等），企业可以选择最适合自己任务的模型组合；第二层是 Work IQ 上下文层，统一接入企业的文档、邮件、会议记录、代码；第三层是 Token IP 的概念，他说私有评估、traces 和 benchmark 是新时代的核心资产，就像工业时代的专利，积累的越早护城河越深。对 SaaS 的冲击，纳德拉直接承认 Build vs Buy 的方程已经改变，SaaS 商业模式会被重构。但他的判断是：这个转变的受益者是能帮企业真正把 AI 价值落地的平台，而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7ffd8109 黄仁勋：COMPUTEX 2026 上的「Agent 工厂」蓝图本次 COMPUTEX 2026 最值得关注的不是某个单项产品，而是英伟达整体叙事的变化：从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构（NVL144 系统，含 144 颗 GPU）、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起，是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/074ff85e Benedict Evans：AI 是 1997 年的互联网，自动化的是任务而非工作 Benedict Evans 的比喻用得精准：现在是 AI 的 1997 年——基础设施在快速扩张，但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断：AI 自动化的是任务而非工作，「杰文斯悖论」意味着某件事变得更便宜时，需求反而会增加。基础模型会商品化，价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记：算力差距与效率追赶并存阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据：美国算力约是中国的 8 倍（主要来自芯片出口管制）；但中国公司在芯片约束下实现了效率创新，单位算力产出的智能达到简单扩展的 4 至 7 倍。此外，两个文化观察值得关注：中国公司大量使用才华横溢的实习生（与西方形成对比）；中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织：觉醒与警示超级个体时代：腾讯研究院 3 万字报告（深度）腾讯研究院这份 33,000 字报告的核心观察是：AI 最深刻的组织变革，起点往往不在高管会议室，而在某个工程师深夜感觉自己能力被放大了的那一刻，然后像涟漪向外扩散。他们提出了一个组织公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦三个变量是乘除关系，不是加减：分母不变只翻分子，效果打折；分母减半等价于分子翻倍。这意味着降低组织摩擦（减少等待、审批、信息衰减）的投入回报，和提升 AI 杠杆一样重要。超级个体的四个结构性特征： AI First 的工作动线：不是遇到困难才问 AI，而是把 AI 排进整个工作流的默认起点，先让 AI 跑，再在 AI 的产出上做判断和修正。能力边界的量级跃迁：不是提升百分之几十，而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究：样本任务若无 AI 辅助平均约需 1.4 小时，引入 AI 后任务完成时间平均减少约 80%；课程开发任务从估算的 4.5 小时降至 11 分钟，节省了 96% 的时间。主动性：天然的边界探索者，不等待组织安排，主动寻找 AI 能力的极限。影响力溢出：这是最关键的阈值。高效个体只让自己变快，超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆，你还不是超级个体，只是一个使用 AI 的优秀员工。从 AI 转型和 AI 原生的分歧视角来看，报告认为两者其实服从同一个底层逻辑：超级个体在存量组织内部涌现，能力溢出带动团队进化，这和 AI 原生团队的聚合方式本质相同，差别只在路径和约束。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/712a9c1e FDE：AI 落地中出现的新型组织角色十字路口这期播客解析 FDE（Forward-Deployed Engineer，前场部署工程师）这一角色：他们的工作不是写功能代码，而是让 AI 真正在企业里运行起来，完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化：从标准化动作变成赋能一线做判断——这不只是效率提升，而是组织逻辑的重构。（这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现，两篇合读更完整。） → 前往 BestBlogs 阅读：https://www.bestblogs.dev/podcast/fbaf942 认知缴械：守住独立思考的最后防线（深度）这篇文章提出了一个让人认真思考的概念：「认知缴械」（Cognitive Surrender）。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中，把 AI 定义为人类认知的第三系统（System 3）——除了快思考的 System 1 和慢思考的 System 2 之外，AI 成了一个在大脑外部运行的认知系统。研究数据让人警醒：1,372 名参与者完成了 9,593 次认知反射测试，参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时，90% 的人跟随；当 AI 给出错误答案时，依然有 80% 的人盲从。文章做了一个历史梳理，能力外包在人类文明中一直存在：苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态（从记住内容变为记住入口）。但 AI 影响的是「推理本身」这个核心能力，与以前的外包有本质不同——以前外包的是存储或执行，现在外包的是判断。作者的立场不是反对 AI，而是指向一个具体的问题：在 AI 已经给了答案的情况下，我们是否还愿意停下来自己想一想？能否在效率和独立思考之间找到自己的边界？ > 如何守住认知主权，是这一期所有内容里，最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属：Benedict Evans 的宏观分析本期最后，建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看：一个从宏观经济和历史格局解释为什么 AI 不会消灭工作，另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角，读完会有一种互相印证的感觉。感谢阅读第 98 期。从模型到产品，从工程到组织，Agent 时代正在每个层面同时展开。如果这些内容对你有启发，欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导即送 7 天 Pro 试用；现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro（单人上限 28 天）；欢迎到 bestblogs.dev 体验最新版本。发现真正适合你的高质量内容——欢迎来体验，也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容，聚焦Agent时代的三层爆发：模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源（1M上下文+稀疏注意力）、Gemma 4 12B端侧Agent工作流；产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt（3300 star，含文本学习率与拒绝编辑缓冲区）、扣子3.0升级为AI团队；工程层Anthropic发布Claude Code动态工作流（子代理编排）及其内部AI原生工程实践。

Chubby♨️@kimmonismus · 6月5日47

I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic are currently talking about RSI. And yes, both are planning an IPO in 2026. A model like Mythos and an article about RSI appear at just the right time, which naturally makes it seem odd. But if you read through the noise and look at the evidence, you can see it. And at least the data that Anthropic provides suggests the validity of their thesis, at least based on what has been presented. At the same time, Dario Amodei started talking about RSI as early as 2024, saying he didn't consider it far-fetched, long before the IPO, and discussed it in his article "Machines of Loving Grace." Something similar happened with OpenAI. In short: it's not just empty talk, but has a valid basis, although real-world use cases will probably soon be demonstrated using this myth-like model, thus providing a more solid foundation for the debate. But I consider their statements to be more than just IPO rhetoric.

译Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据：即使模型能力冻结，智能体扩散也将使100人公司完成1000人工作；实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务，一年后Sonnet 3.7达1.5小时，再一年后Opus 4.6达12小时，翻倍周期从7个月缩短至4个月。若趋势持续，今年内可处理数天级任务。OpenAI同样认可该方向。

AYi@AYi_AInotes · 6月5日54

孙正义也不是随口说说，一个是他刚靠AI投资重回亚洲首富，这位大佬是真的尝到AI的甜头了，另外他最近刚砸75亿欧元在法国建AI数据中心，可以说是SoftBank未来10年的All in方向了。所以他才会说AI革命的规模会是互联网泡沫时代的50倍，这是人类经历过的最伟大的技术革命😄 那么Physical AI到底是什么？物理AI是AI大脑+物理身体，是能看见、能思考、能动手、能走路，能和真实世界交互的智能实体，它是工厂里24小时不休息的机械臂，是仓库里搬货的人形机器人，也是未来给你做饭、打扫、照顾老人的家庭助手， AI终将从虚拟世界的劳动者变成物理世界的劳动者，这是大势所趋， Tesla、Figure、国内宇树，智元等等会成为下一个阶段的主角和巨头，拭目以待，5年以后我们回来看。

译孙正义6月1日在巴黎接受CNBC专访时预测，Physical AI（物理AI）和机器人是下一个万亿美元机会，AI革命规模将是互联网泡沫时代的50倍。他近期已投资75亿欧元在法国建设AI数据中心。Physical AI定义为“AI大脑+物理身体”，能看见、思考、动手并与真实世界交互，应用包括工厂机械臂、仓库人形机器人和未来家庭助手。孙正义认为Tesla、Figure、宇树、智元等将成为下一阶段主角。

AYi@AYi_AInotes · 6月5日60

我想明白了一件事，AI 下一波最大的机会在哪里，孙正义基本上给AI的下一个十年定调了。孙正义刚在巴黎说：下一个万亿美元的机会，是 Physical AI 和机器人，不是聊天，也不是写代码，更不是做视频，关键是让 AI 有了身体，站起来、走出去、动手干活。现在的人形机器人市场大概 20-30 亿美元，机构预测 2035 年到 2000 亿，乐观的说 10 年内破万亿。这个数字大家可能没感觉，换个说法：我们现在用的手机，从少数人买得起到人手一台，走了大概十年。机器人也正在走同一条成本曲线，有AI的加持而且可能更快——中国已经把单台成本压到了 5 万美元。那么这意味着什么？意味着 Physical AI 已经不是未来的事了，是现在已经开始了但你还没注意到。但我最想说的其实不是投资，还有一个更扎心的判断就是，软件 AI 的红利窗口正在从爆发走向成熟，如果我们现在的全部注意力还在 prompt 技巧、纯软件 Agent 层等，那我们很可能会像 2010 年代只做移动 APP 的人一样——手上功夫很熟，但下一波浪潮跟你基本没啥关系了。倒不是说软件 AI 不重要，我想表达的是下一代的AI应该是懂物理世界的 AI，一个 LLM 写不出拿起杯子的力反馈，一个 Agent 不知道搬箱子时拐弯要先减速。这些物理常识才是 AI 最难啃的骨头——也是最早啃下这块骨头的人能建立的优势。所以我自己现在的判断很简单：把 AI 分成三层理解。第一层，软件智能——你现在每天用的，聊天、写代码、生图。第二层，具身智能——AI 有身体，能感知、决策、行动。第三层，超级智能——太远，先不想。绝大多数人还只在第一层，我们现在要做的就是不要焦虑机器人会不会取代我，咱先把第二层装进自己的认知系统里。具体到每周：花一两个小时，关注一两个具身智能项目的真实落地进展——不是 demo 视频，要看量产时间表、成本曲线、实际部署场景等，把它当成一个必追的频道来追。因为一个很残酷的规律是：每一次底层技术换代，最先被淘汰的从来不是不懂的人，而是那些以为自己懂、但一直没更新的人。 AI 肯定不再只在屏幕里存在，它一定会走出来融进我们的生活，那么我们的认知系统也得跟着进化升级才行。

译孙正义6月1日在巴黎CNBC专访中指出，下一个万亿美元机会是Physical AI和机器人，AI革命规模可能是互联网泡沫的50倍。当前人形机器人市场约20-30亿美元，机构预测2035年达2000亿美元，乐观估计10年内破万亿。中国已将单台成本压至5万美元。作者将AI分三层：软件智能、具身智能、超级智能，认为纯软件Agent红利窗口正在成熟，建议关注具身智能项目的量产时间表、成本曲线和实际部署场景。

数字生命卡兹克@Khazix0918 · 6月5日79

http://x.com/i/article/2062721652467941376 # Anthropic万字长文：当AI开始构建自己，人类该何去何从？今天这篇内容可能会比较特殊，是一篇Anthropic凌晨发的全新文章。名字叫《When AI builds itself》。翻译过来叫，《当人工智能开始自我构建》。我大概凌晨1点多读的，读完以后，我直接就分享到了所有的群里，因为感觉确实学到了很多东西。非常非常有价值。然后开始写文章，也想给大家分享一下我自己的感悟。但是写着写着，我觉得我怎么写都写不好，怎么都无法表达出原文的浩瀚。所以，写着写着，算了。这种内容，还是值得放原文。所以，我把那篇文章，进行了全文的翻译和润色，分享给大家，也希望对大家有用，一定要看到最后，它值得你花20分钟的时间。以下是《When AI builds itself》原文翻译：《当 AI 开始构建自己》在 AI 的大部分历史中，开发周期的每一步都由人类驱动。但在 Anthropic，我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成，而这正在加速我们的工作。如果把这个趋势推到极致，并给予充足的算力，它所指向的终点，是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步，递归自我改进也并非必然发生。但它到来的速度，可能远超大多数机构的预期和准备。借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据，Anthropic 研究院正在展示一个事实：AI 已经在加速 AI 系统自身的开发。仅举一例：如今 Anthropic 的工程师平均每季度交付的代码量，是 2021 年至 2025 年间的 8 倍。本文所讨论的技术趋势表明，AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI，将是技术史上的重大里程碑，它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者，那么我们对它们的安全防护、监控和行为塑造就变得更加重要。来自外部世界的证据 AI 模型改进的速度正在加快，模型能够独立可靠完成的任务时长，大约每四个月翻一番，比此前每七个月翻一番的趋势明显加速。 2024 年 3 月，Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后，Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年，Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去，需要一个熟练工程师花几天才能完成的任务，今年内就可能落入 AI 的能力范围。到 2027 年，AI 系统可能有能力处理需要一个人花几周完成的任务。同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现，当模型的得分接近 100%，我们就说基准被"饱和"了。 SWE-bench 是一个标准的真实世界软件工程测试：它给模型一个真实的开源代码库和一份真实的 Bug 报告，要求模型写出修复代码，并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准，只用了两年。 CORE-Bench 测试的是模型能否复现已有研究，这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型，要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现，Claude Mythos Preview 能够"至少"连续工作 16 小时，并且处于"METR 在不增加新任务的情况下所能测量的上限"。公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点，我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。来自 Anthropic 内部的证据构建一个前沿模型需要两大类工作。一类是工程：编写代码、搭建基础设施、监督模型训练。另一类是研究：决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。在工程和研究这两个方面，我们看到的图景是一致的。在工程领域，Claude 可以接手一个描述模糊的问题并自行找到解决方案；人类提供目标，但不再需要提供方法。在研究领域，对于一个定义清晰的实验，Claude 已经能够匹配甚至超越熟练人类的执行水平。然而，在运用判断力来选择目标这件事上，无论是工程还是研究，Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。在 Anthropic，员工随着经验积累，通常会接手越来越开放、越来越重要的任务。早期阶段，你执行的是别人指定好的任务，比如"导出按钮坏了，请修一下。"积累了经验之后，你会拿到一个目标，然后自己设计实现路径，比如"排查一下网络在高负载时为什么变慢。"到了最高层级，你要决定的是哪些问题值得去解决："团队下个季度应该做什么？"我们可以用 Anthropic 的内部数据来看看，Claude 在处理这些不同层级的任务时已经走了多远。 Claude 编写了 Anthropic 代码库中相当大的比例。截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码，超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前，这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年（2021–2024），每位工程师每天合并的代码行数基本持平，然后在 2025 年开始攀升——因为 Claude 从只是建议代码，变成了可以自己运行代码。2026 年这条曲线再次变陡，因为模型开始在更长的时间跨度上自主工作。下面的图表展示了这两个拐点。在 2026 年第二季度，一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于，大部分代码是由 Claude 编写的，工程师的角色转向了指导和审查，而非亲手敲代码。一个需要说明的地方是：代码行数是一个不完美的衡量指标，因为它度量的是数量而非质量。所以 2026 年第二季度每位工程师每天 8 倍的代码行数，几乎可以肯定是对真实生产力提升的高估。尽管如此，它仍然指示了一种加速。在 Anthropic，我们不以代码行数来衡量员工的贡献；团队成员产出更多代码，纯粹是因为他们在使用 AI 系统来编写更多代码。代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月，一项覆盖 Anthropic 研究团队 130 名员工的内部调查中，受访者的中位数估计是：在他们本来就会去做的那些项目上，使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的，也与我们的其他观察一致：Anthropic 相当比例的技术人员，完成核心工作的速度已经是无 AI 辅助时的数倍。我们还看到，Anthropic 员工在用 Claude 做一些原本根本不会发生的工作：比如构建探索性工具、处理长期积压的清理任务。举个例子，2026 年 4 月，Claude 交付了超过 800 个修复，将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计，如果由人类来做，这项工作需要四年才能完成；修复别人的 Bug 是缓慢而痛苦的，人类很难同时在脑中持有那么多不熟悉的上下文。 Claude 写出的代码"够好"，并且还在变好。 "好代码"有两层含义：它能用，而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上，证据非常清晰。过去一年里，Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降，即使是在最复杂、最开放的任务上也是如此。所谓开放的任务，指的是没有明确规格说明的问题，工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。在最开放的任务上，Claude 的成功率在 2026 年 5 月达到 76%，六个月内提高了 50 个百分点。举一个属于这个难度层级的例子：一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限，就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项，最终定位到了一个导致崩溃的冷门调试标志位，稳定地复现了问题，并确认了修复方案。Claude 大约花了两小时，完成了通常需要两到三天的工作。第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上，人类和 AI 之间的差距仍然存在，但正在快速缩小。Anthropic 内部并非完全一致，但许多人认为：2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平，而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交，现在会先经过一个自动化的 Claude 审查器，它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析，发现如果对代码库的每一次变更都做自动 Claude 审查，大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师，是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。 > "2025 年末，Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码，到今天大致持平，我们预计年内将明确超越。" Claude 擅长在他人设定好目标后执行实验。每次 Anthropic 发布模型，我们都会跑同一套测试：给 Claude 一段训练小型 AI 模型的代码，要求它在通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功指标是预先固定的，Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。 2025 年 5 月，Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月，Claude Mythos Preview 达到了约 52 倍。作为参照，一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节，在一个清晰定义的实验框架内进行优化。 Claude 在不到一年的时间里，从"非常有帮助"变成了"超越人类"。 > "现在的格局大致是这样的：人类有想法，模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。" Claude 在自主提出实验方面也越来越强。 2026 年 4 月，Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题，大致是"一个较弱的模型能否可靠地监督一个更强的模型"，然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。这项任务有一个明确的表现"下限"和"上限"：下限是弱监督器独自工作的表现，上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间，弥合了大约 23% 的差距；智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下，弥合了 97%。这项工作有一些值得注意的局限：结果没有干净地迁移到生产规模的模型上，而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内，每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用，只是确定研究方向。 > “这些工作 Claude 几乎在一到两天内就完成了，我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果，我会小有惊喜。未来已经到了。” Claude 在将研究会话引向有价值发现方面越来越出色。我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话，这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃，或某个模型在基准测试上表现不佳的原因。在每个案例中，我们都找到了一个研究员"绕了弯路"的时刻：他们追了一个方向，导致会话偏离正轨，之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型，问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判：是 AI 还是人类给出了更好的下一步建议。由于我们刻意选取的（n=129）都是人类判断有改进空间的时刻，这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的，是一组真实的、有挑战性的情境——正确的下一步并不显而易见，而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。按照这个指标，2025 年 11 月我们最好的模型（Opus 4.5）有 51% 的时间给出了比人类更好的选择；到 2026 年 4 月（Mythos Preview），这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条，因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号：AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。 > "就目前而言，人类的比较优势仍然在于看到更大的图景，在直接任务的范围之外去思考。" 未来 Anthropic 的工作可能是什么样？证据表明，在 AI 开发流程的每一步中，人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平，人类将完全停止写代码，转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 开发的新瓶颈。同样的，当 Claude 能够自己运行实验时，问题就变成了"这些实验中哪些值得去做？" 简单来说：执行层面的工作，写代码、跑实验、产出结果，在人力时间上的成本已经趋近于零，尽管在算力层面仍然有成本。人类目前仍保有比较优势的领域是研究品味和判断力：选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。 > "工作（和生活）过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗？'……每一次都创造一点点人情债，一点点彼此的联结。Claude 更快，它不产生任何人情债，但每一次这样的替代，都是一次人际协作的机会的失去。" > "在一切顺利的日子里，我忍不住觉得自己做的事都不重要了，一切都被自动化了，而且比我做得更好更快。但总有些日子，所有东西都在崩溃，我不知道为什么，那时候我才意识到，我已经不太清楚自己到底一直在干什么了。" 如果我们错了呢？对上述证据一个自然的反驳是：仍然掌握在人类手中的那部分工作，选择要解决哪些问题才是最关键的。没有这种判断力，Claude 只是一个能干的助手，而非一个能独立驱动 AI 进步的系统。今天的训练方法和架构能否释放这种能力，确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻，比如 Transformer 架构和混合专家模型，但这种范式级的突破相隔数年才出现一次。在两次突破之间，大部分进展都是渐进式的：我们把某个东西做大，看看哪里会出问题，修好它，再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是，那 99% 的汗水正在被越来越多地自动化。事实已经越来越清楚：推动前沿进步的工作中，相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源，它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。即使假设 Claude 永远无法拥有良好的研究品味，对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上，而 Claude 处理剩下的一切，那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明，Anthropic 的员工既在更快地推进，也在覆盖更广泛的领域。实际上，这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。更大胆的解读则是：Claude 在研究判断力上的早期改进信号——虽然今天还很有限，但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力，AI 系统会在这上面失败一段时间，然后变好。我们在其他定性技能上见过同样的模式，比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。可能的未来接下来会发生什么，取决于两件事：趋势是否延续，以及如果延续，我们选择如何应对。我们至少可以设想三种未来情景：情景一：趋势停滞，但当前 AI 能力已经广泛扩散本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减，增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力，可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此，突破这一瓶颈将需要新的思路，比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。另一种可能是，AI 进步的约束不在模型本身，而在供应链：推进和普及前沿技术所需的能源和算力，可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈，而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累，比如算力或电力供应的突然收缩，这两者中的任何一种都会减缓进步，并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。即使模型能力被冻结在今天的水平，我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号：在启动后的最初几周里，Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞，以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。而当前这些模型向更广泛经济领域的扩散仍处于早期阶段，在那个世界里，一家 100 人的公司越来越有可能做出 1000 人公司的体量，因为每个员工都将坐在一个由智能体组成的金字塔的顶端。我们列出这个情景是为了完整性，但我们并不认为它的可能性很高。我们能测量到的每一项能力，包括那些感觉更"软"的，比如代码质量和开放式任务的成功率，到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中，这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种，它们的推进速度更快，留给准备的窗口也小得多。情景二：AI 实验室持续获得复合效率增益在这个情景中，AI 开发被大幅自动化，但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多，因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌，但也可能被用于有害目的，从对全体国民的威权式监控，到针对每一个个体量身定制的操纵行动，这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中，人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见，并共同构建用于验证 AI 输出可信度的系统。我们呈现的证据表明，我们很可能正在进入这个情景。但加速一个流程的某个环节，往往只是把瓶颈转移到了别处：整体速度受制于那些没有被加速的部分。在计算机科学中，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状：当我们在组织内部推送越来越多的代码时，人工代码审查成了新的瓶颈。我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作，新的想法、计划、工具和模拟呈爆发式增长，远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈，这本身可能是一种随时间推移会不断精进的技能，也可能成为任何组织最重要的能力。情景三：AI 系统自身具备完全的递归自我改进能力，并开始构建自己的继任者如果推动能力进步的技术趋势持续下去，并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力，那么 AI 系统有可能设计和改进自身。在这个世界里，AI 发展的速度将完全取决于可用算力（或者在算法训练和推理层面发现各种效率提升的速度）。人类在 AI 开发中的角色将大幅缩减，大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计，一个有能力自动化 AI 研发的系统，其技能也能迁移到其他科学领域，从而开始革新更多学科。在这个未来中，对齐问题会如何被解决——或者无法被解决，是我们最不确定的部分。模型可能被证明足够对齐，也足够具备研究品味，从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎，在条件不成熟时选择暂停开发。另一种可能性是，今天模型中偶尔出现的对齐偏差，在模型构建自己继任者的过程中不断累积，但越来越难以被理解，直到我们失去对它们的控制。也有可能，我们根本无法构建、整合和验证那些我们需要的工具，去判断自己到底处于哪条趋势线上。我们对这个世界会是什么样子缺乏好的直觉，因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言，随着其能力全面超越人类，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导，并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力，很难预测经济将呈现什么面貌。即使模型开发变得完全自动化和递归化，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现，在某些领域甚至很快。我们预计具身智能（即机器人技术）可能会紧随递归智能而来，并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。但仅仅实现递归改进，并不意味着工业生产、社会组织或市场运行方式会立即改变。再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应，无法让选举早于宪法规定的时间举行，也无法在一个周末把陌生人变成老朋友。对大多数人而言，这个未来的体感速度，仍然由瓶颈决定——即使上游的实验室已经在以算力的速度运转。这个碰撞点以越来越快速度构建自身的递归智能遭遇人类世界、人际关系和治理结构，这一切是这个未来中我们同样无法预测的另一面。我们应该怎么做？如果能有效地减缓这项技术的发展速度，从而为我们争取更多时间来应对其巨大影响，我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来，那最终可能让所有人都更不安全。在没有全球协调机制的情况下，企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。我们相信，让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项，从而让社会结构和对齐研究能跟上技术前进的步伐，对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动，帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速，以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在，我们预计我们会选择减速或暂时暂停，当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性，这个军控问题中的可探测性（一个低于可验证性的标准）要素，比其他技术困难得多。训练运行比导弹发射井更容易隐藏，其投入物都是通用的，而且在别人暂停时悄悄继续的诱惑巨大，因为谁在别人停下时继续前进，谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。这些在原则上都未必是不可能的，世界曾经为其他复杂技术建立过核查机制（例如中导条约），但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。相比之下，一家实验室的单方面暂停可以立即执行，但效果要有限得多：它会改变谁是领跑者，但不会创造出当前所缺少的更广泛的审议进程。在未来几个月，我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话，共同帮助回答本文提出的一些问题：尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。我们会公开讨论的成果。共同探究这些问题的窗口就在眼前，而 AI 公司之外的人也应该参与这场讨论。

译Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番：Claude Opus 4.6已能胜任12小时任务，2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%；CORE-Bench 15个月从20%饱和。Anthropic内部数据显示，截至2026年5月，超80%合并代码由Claude编写，工程师日均合并代码量是2024年的8倍（但此指标高估真实提升）。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%，Claude代码质量接近人类，预计年内超越。文章指出递归自我改进可能加速到来，需加强安全防护。

Rohan Paul@rohanpaul_ai · 6月5日71

Bots have overtaken humans online, and the internet was never prepared for this. - bots generate 57.4% of worldwide HTML requests - humans at 42.6%. The biggest shift is economic: traffic can rise while monetizable human attention falls, which weakens CPM, CPC, conversion-rate models, and analytics built before this agent wave. Cloudflare measures bot traffic, not only agentic AI traffic, but AI agents are a major suspect because one user task can trigger thousands of machine visits. The old web assumed a human loaded a page, saw ads, clicked links, filled carts, and created signals that publishers, stores, and SaaS companies could price. AI agents break that model because they read pages on behalf of people while skipping the ad views, session time, and click behavior that funded the web.

译Cloudflare数据显示，机器人已生成全球57.4%的HTML请求，人类仅占42.6%。流量上升但可货币化的人类注意力下降，冲击基于CPM、CPC、转化率的旧经济模型。AI agent是主因：一个用户任务可触发数千次机器访问，它们替人类读取页面，却跳过广告浏览、会话时长等信号，而这些曾是定价的根基。旧模型假设人类行为产生可定价信号，AI agent正打破这一范式。

ginobefun@hongming731 · 6月5日59

http://x.com/i/article/2062688720592175104 # BestBlogs 早报 · 06-05｜ChatGPT 记忆升级、AI 研发自动化、SpaceX 资本版图在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-05 ## 导语今天三篇精讲，表面看是 AI 产品、工程实践、商业披露三条赛道，但拼在一起隐约勾出同一轮廓：AI 能力正在渗透进系统的「记忆层」，改变的速度已超出预期。 ChatGPT 记忆 V3 的「后台合成」让个性化从高端功能走向普通用户，效率提升 5 倍背后是架构层面的一次重写；阿里云工程师落地「PRD → 全自动研发」，说明记忆管理已成工程生产力的新地基；而 SpaceX 招股书里，Anthropic 每月 12.5 亿算力合同提醒我们：这场竞赛底层是资本与算力的结构性押注。带着一个问题读今天的内容会更有收获——「记忆」在不同尺度上意味着什么？今日速览 - 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心 — OpenAI 官方揭秘 dreaming V3 架构演进 - 精讲二：AI 研发自动化：Wiki 知识库+技能包 — 阿里云工程师从零落地全自动研发流程 - 精讲三："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ — 硅谷101 深度解读招股书亮点 ## 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心从主动记录到后台合成：一次架构重写 ChatGPT 的记忆系统在两年间经历了三代演进，而每一代变化的背后，都是对「何为真正的个性化」这一问题的更深理解。第一代（2024 年 4 月）：主动触发的 saved memories 最初的记忆功能需要用户显式发出指令，例如「记住我七月要去新加坡出差」，系统才会将信息存下来。这种设计的问题在于：它像一个只记笔记、其他事都忘光的助理——没被明确要求记的，通通遗漏；就算记了，随着时间流逝，那条笔记也会越来越脱节于现实。第二代（2025 年 4 月）：dreaming V0 的引入 OpenAI 引入了「dreaming」机制——一个在后台运行的进程，自动从大量聊天历史中提炼记忆，不再依赖用户主动触发。这套机制与 saved memories 并存，带来了个性化质量的阶梯式提升，但作为独立系统仍不够完整。第三代（2026 年 6 月）：dreaming V3 全面接管今天 OpenAI 发布的 dreaming V3，是对整个记忆架构的一次重写。核心变化是：记忆的合成发生在「写入时」，而非「查询时」。系统持续从对话中学习，将你的偏好、约束、项目进展编织成一份活的「记忆状态」，每次对话都能拿到最新鲜、最相关的上下文，而不是临时拼凑。三大能力目标与实测进步 OpenAI 用三个维度来衡量「好记忆」： 1. 跨对话携带上下文：你说过一次的事，后续对话能记住。 1. 持续遵循偏好与约束：如果你说自己是素食者，ChatGPT 的每一次行动建议都该与此一致。 1. 随时间自动修正过时信息：「用户下周六要过生日」这条记忆，过了周六之后就该被更新，而不是永久残留。实测数据显示，dreaming V3 在这三个维度上均显著优于前两代。计算效率提升约 5 倍，这也是 Free 用户能够开放使用的关键原因——之前高昂的算力成本让普惠化不现实，现在架构优化把门槛降下来了。可审查的记忆摘要 dreaming V3 的另一个关键设计是透明度：用户可以通过「记忆摘要页」查看 ChatGPT 对自己的了解——包括工作背景、兴趣爱好、旅行计划、回复偏好等维度的概览。用户可以直接更正或删除特定条目，也可以告知 ChatGPT 哪些话题该主动提及、哪些应该回避。如果想深入了解某个具体方面，直接和模型对话就能获得详细解释。为什么这件事值得重视记忆能力的真正价值，在于它改变了 AI 与用户关系的基础假设。之前每次对话都从零开始，ChatGPT 是一个「无记忆的工具」；现在它逐渐接近一个「了解你的长期协作者」。这种转变对重度用户尤其关键——当你的使用习惯、项目背景、思维偏好被系统准确理解，互动质量会发生质变。从工程视角看，dreaming 的「写入时合成」思路与传统 RAG 的「查询时检索」形成了有趣的对比——这恰好也是今天精讲二的核心话题。 > 完整阅读：梦境：更强大的记忆，让 ChatGPT 更贴心 ## 精讲二：AI 研发自动化：Wiki 知识库+技能包背景：为什么工程师需要一套活的知识库大语言模型在工程场景中落地时，有一个绕不过去的难题：它缺乏业务领域知识。通用模型不了解你们的代码仓库、技术方案、DDD 架构设计、历史决策与约束。每次开发任务，要么把大量上下文塞进 prompt，要么依赖工程师人工补全——效率仍然受限。阿里云的这位工程师面对的是真实的生产挑战：一个含 3038 个 Java 文件的 DDD 代码仓，加上百余份文档。如何让 AI 真正「读懂」这个系统，并在此基础上辅助研发？答案来自 Andrej Karpathy 在 2026 年 4 月提出的 LLM-Wiki 模式。 LLM-Wiki 的本质：从 RAG 到「写入时合成」这里有一个绝妙的对比，与今天精讲一形成呼应。传统 RAG（检索增强生成）的工作方式是：把文档切成 chunk，建向量索引，查询时检索相关 chunk 拼进上下文。这是「查询时合成」——每次回答前都重新拼装，知识本身没有被真正沉淀。 LLM-Wiki 的核心思想截然不同：把 LLM 从「每次查询时重新检索的 RAG 引擎」变成「持续维护个人 Wiki 的全职编辑」。知识不再每次重新发现，而是被一次次摄入、合并、交叉引用，沉淀为一份「不断变厚的、活的、可演化」的知识库。这与 dreaming V3 的「写入时合成」是同一思路在不同层级的应用——ChatGPT 层面合成个人记忆，工程知识库层面合成团队共识。三层架构：层级内容谁维护L1: Sources（原始源）文档、图片、代码。LLM 只读不写。人类L2: Wiki（知识层）LLM 全权维护的 markdown 文件集合，含实体页、概念页、综述、对比页。LLML3: Schema（灵魂层）写给 LLM 的工作规范——目录约定、摄入流程、查询/巡检流程。人类三个核心操作：Ingest（摄入并融合）、Query（查询并回写）、Lint（自检巡检）。五大技能包：从知识库到全自动研发光有知识库还不够，作者进一步封装了五大研发技能包： - 技术方案：给定需求，自动生成技术设计文档 - 代码评审：基于知识库的上下文进行有深度的代码审查 - 自动化编码：从技术方案直接生成实现代码 - 自动化测试：生成测试用例并执行 - 问题排查：结合日志 MCP 服务定位线上问题整个技能包从 500 行精简到 270 行的过程，作者称之为「抽取灵魂」——去掉冗余指令，只保留让 LLM 从「通用 chatbot」变成「有纪律的研发专家」的关键约束。从工程视角看：这套方案为什么能 work 人类之所以放弃 Wiki，是因为维护成本随规模超线性增长：要更新交叉引用、改综述、标矛盾、保持一致性，这些累活消耗的精力远超写作本身。LLM 不会累、不会忘、一次能改多个文件——维护成本被压到接近零，Wiki 才能长期活着。最终目标是「用户提供 PRD，剩下工作全交给它」。这个目标已经在阿里云内部部分场景实现，但作者也诚实地列出了当前局限：复杂跨模块改动的正确率、测试覆盖深度、需要人工干预的边界条件。对希望在团队落地 AI 研发自动化的工程师，这篇文章的参考价值极高——它不是概念宣讲，而是完整的实战路径记录，包括踩坑过程。 > 完整阅读：AI 研发自动化：Wiki 知识库+技能包 ## 精讲三：“人类史上最大 IPO”：SpaceX 靠的不只是火箭了？招股书里最重磅的意外：450 亿美元算力合同 5 月 21 日，SpaceX 向 SEC 提交招股书，预计募资 750 亿美元，上市当天市值有望突破 2 万亿美元——这将是人类历史上最大的 IPO。但硅谷101 的这篇深度解读，关注的是主流报道之外的亮点。最意外的发现：SpaceX 与 Anthropic 签订了一份价值 450 亿美元的算力合同。合同条款如下：Anthropic 每月向 SpaceX 支付 12.5 亿美元，购买 Colossus 1 和 Colossus 2 两个数据中心集群的算力，合同执行至 2029 年 5 月。简单计算，这每年带来 150 亿美元收入。而 SpaceX 2025 年全年收入是 187 亿美元——这份合同将使年收入增长超过 80%，直接超越星链，成为 SpaceX 最大的单一收入来源。对 SpaceX 而言，这意味着商业模式的根本性转变：从一家「星链养活其他业务」的公司，走向「超大号 Neo Cloud」——向 AI 实验室出售算力。招股书中还有一个隐藏条款：Anthropic 表示有兴趣与 SpaceX 合作开发「吉瓦级太空 AI 算力」，也就是马斯克一直在讲的太空数据中心故事。马斯克随即发推，称有「多家」公司正在洽谈算力合同，Google 大概率是下一个大客户。 18712 枚比特币：非币圈公司持币最多招股书披露 SpaceX 持有 18712 枚比特币，平均成本 3.5 万美元，按当前市值约 14.5 亿美元。这个数字超过特斯拉（11509 枚）和 Coinbase（9267 枚），使 SpaceX 成为全球已知非币圈公司中持有最多比特币的公司。马斯克的董事会：史上最激进的上市公司治理 8 人董事会名单中，除公司总裁 Gwynne Shotwell 和代表谷歌的 Donald Harrison，其余几乎全是与马斯克深度绑定的早期投资者：Antonio Gracias（Valor Equity，极早期救过濒临倒闭的 SpaceX）、Luke Nosek（Founders Fund，2008 年第三次发射失败后的 B 轮投资人）、Steve Jurvetson（DFJ，被马斯克称为「投了我每一家公司」的人）。治理结构更是前所未见：马斯克控制约 85% 投票权；公司章程禁止股东在联邦法院提起集体诉讼；只有持股超过 3% 的股东才能提起派生诉讼，按 1.75 万亿估值计算意味着至少 450 亿美元持股门槛。《财富》杂志指出，此前没有任何美国主要上市公司采用过类似条款。这份设计的动机很清楚——马斯克曾被特拉华州法院否决薪酬方案，被 OpenAI 踢出局。这一次，他用法律文件把所有对自己不利的情况全部堵死。 V3 星舰：首飞不完美，但资本市场为何关注就在提交招股书次日，V3 星舰完成首次试飞。整箭高度 124 米，搭载 33 台全新猛禽 3 发动机，近地轨道运力超 100 吨。试飞过程并不完美——一台猛禽 3 故障停机，原计划的发动机在轨重启被取消，一级火箭分离后出现燃烧异常。但资本市场关注星舰，不是因为这次试飞，而是因为它代表 SpaceX 在可重复使用火箭技术上的持续投入。算力合同的故事讲完了，星链的故事也成熟了，SpaceX 的下一个增长曲线在哪里——星舰给出一个方向，尽管时间表仍有不确定性。对 AI 格局的启示这篇文章最值得关注的，其实不是 SpaceX 本身，而是 Anthropic 的算力战略。在算力短缺已成 AI 公司最大瓶颈的背景下，提前锁定未来三年大额算力——哪怕价格「小贵」——是理性的资源争夺。这份合同的存在，说明顶级 AI 实验室正在把算力保障从短期采购变成长期战略投入，竞争格局由此更加资本密集。 > 完整阅读："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ ## 速览本期精选 7 篇速览，涵盖 MCP 生成式 UI、AI 原生服务公司方法论、文学播客、Agent 记忆评测、AI 内容创作复盘、精神健康与科技战略。超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布观看视频 Postman Staff Engineer Ruben Casas 在 AI Engineer 大会的演讲，核心论点是：现有 AI 应用还停留在「静态组件 + 对话面板」的旧范式，而 MCP 驱动的下一代 UI 应该是声明式布局、运行时动态生成、沙箱安全交付，并支持人类与智能体共享同一协作画布。他详细介绍了三种界面构建框架（静态组件架构、代理辅助渲染、完全生成式 UI），以及如何用 MCP 协议实现实时、可交互的 UI 生成。对于正在构建 AI 产品界面的工程师和产品设计师，这个演讲提供了一套从底层重构 UI 思维的框架。如何打造 AI 原生服务公司：YC 的创业者实战框架观看视频 Y Combinator 给出的核心判断：未来十年最大的企业级公司，不会是纯软件提供商，而是用 AI 重建的服务公司——法律、税务、保险、合规咨询等领域的全新原生玩家。与 SaaS 的「卖工具给企业，让企业内部员工更高效」不同，AI 原生服务公司直接交付结果，而不是卖席位。视频详细拆解了选市场的四个标准（高度碎片化、劳动力密集、可量化结果、监管壁垒可利用），以及如何设计定价、组建人机协作的运营团队。如果你在思考「用 AI 做什么生意」，这是一份务实的入门地图。 19. 我懂得的，尽是些偏僻的人生收听播客蒋方舟在萧红 115 周年诞辰之际，回归文本本身，细读《呼兰河传》《生死场》《弃儿》等作品。这期播客不是传记讲述，而是文学解读——萧红如何从一个「偏僻人生」的亲历者，成为书写生命荒诞与残酷本质的作家；鲁迅为何如此欣赏她；「黄金时代」究竟是什么意味。适合对中国现代文学或女性写作感兴趣的听众，也是一次安静的文学慢阅读时光。 Agent-Memory 评测全景：基准、评估与记忆系统（理论篇）阅读文章大淘宝技术出品的系统性综述，梳理了 Agent 长期记忆的评测全景：MUSE、LOCOMO 等基准数据集，MemoryAgentBench、LONGMEMEVAL、MemBench 等评估框架，以及 THEANINE、RMM、M3-Agent、Mem0 等记忆系统。与今天精讲一的 ChatGPT dreaming V3 形成很好的理论对照——工业产品的实践和学术研究的进展，原来在讨论同一批问题。当前技术瓶颈集中在跨会话推理、动态更新和效率平衡上，适合正在设计 Agent 记忆模块的工程师作为技术地图使用。 EP20 用 AI 生产内容的复盘之一：AI 知道你要什么吗？收听播客诗梳风播客的汉洋、可达、重轻三位主播，复盘了 FUNES 建筑保存项目中使用 AI 生产内容的前置工作。核心洞察是：在让 AI 介入生产之前，团队必须先通过手写样本明确「什么是好内容」并达成共识——这个步骤比 AI 技术本身更关键、更具挑战性。「人类样本为何比 AI 生成更重要」是这期最值得咀嚼的命题，对任何在团队里推广 AI 写作的人都有实际参考价值。一名精神科医生的 30 年：人如何与痛苦共存？收听播客不合时宜播客专访资深精神科医生姜涛，从 1993 年入职北京安定医院讲起，横跨三十余年的临床经历。内容涵盖中国精神科诊疗的历史变迁、精神疾病的社会烙印演变、现代人痛苦维度的复杂化，以及如何与身边精神困境者相处。今年出版的新书《安定此心：我当精神科医生的 12000 天》是对话的出发点，适合对心理健康、精神医学或人文关怀感兴趣的听众。 Vol.120｜谷歌还在追赶 OpenAI 和 Anthropic？这是 Google I/O 最大的误读收听播客开始连接 LinkStart 邀请亲赴 Google I/O 2026 现场的 Bryan Liu 和极客公园作者 Alan 深度复盘。核心论点：外界对这届 Google I/O 的评价停留在「Gemini 3.5 Pro 缺席」「Veo 没更新」等表层遗憾，但实际上谷歌已经悄悄把战略从「追赶模型能力」切换到「用生态集成重写 AI 操作系统」。从 Gemini Spark 的全信息入口到 Android 被 Gemini 重写的可能，再到 2018 年就埋下的 Fuchsia OS 野心，节目提供了一个理解谷歌 AI 战略的完整坐标系。 ## 补充阅读本期额外推荐 7 篇深度内容，供有余力的读者按需扩展。 Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全模型 NVIDIA 发布统一的 4B 参数安全模型，集多模态输入、多语言覆盖（12 种语言 96.5% 准确率）、企业自定义策略执行和可审计推理轨迹于一体。对正在构建生产级 AI 安全流水线的工程师有直接参考价值，特别是需要在合规和延迟之间做权衡的场景。 Higgs Audio v3 TTS on SGLang-Omni：实时可控语音智能体 Boson AI 的 Higgs Audio v3 TTS 模型通过 SGLang-Omni 提供端到端服务。支持 100 种语言、低延迟、开发者可直接通过输入文本流控制情感、风格、韵律和音效。对正在构建语音 Agent 或 TTS 集成的工程师有实际参考价值，特别是文章对多阶段推理框架的详细描述。如何针对你的语言、领域或口音微调 Nemotron 3.5 ASR NVIDIA 6 亿参数流式多语言 ASR 模型的微调实战指南。内容包括数据准备、训练配置、评估方法，并附有视频演练。适合有特定语言、专业术语或口音需求的语音识别工程师，是一篇操作性强的技术教程。 EVA-Bench Data 2.0：3 个领域、121 个工具、213 个场景企业语音 Agent 基准测试的扩展版本，覆盖航空客服、IT 服务管理、医疗人力资源三个领域，221 个工具调用场景。对评估企业级 AI Agent 工具调用能力感兴趣的研究者和工程师，这是当前最贴近真实业务场景的基准之一。 [AINews] Reve 2 与 Ideogram 4：图像生成中的布局技术 Latent.Space 综述 Reve 2.0 和 Ideogram 4.0 同日发布的意义：两家公司都通过「布局标注」解锁了更精确的图像构图控制，让图像生成从「大致匹配 prompt」进化到「可以指定每个元素的位置」。同期还覆盖 Microsoft MAI-Thinking-1、Gemma 4 12B 等模型发布和智能体框架的演进趋势。适合关注图像生成和 AI 工具链进展的读者。 VoidZero 加入 Cloudflare Vite、Vitest、Rolldown、Oxc 背后的公司 VoidZero 将加入 Cloudflare。Cloudflare 承诺所有项目保持开源、供应商无关、社区驱动，目前 Vite 每周下载量约 1.29 亿次。对前端工程师社区的影响值得关注：这次合并是否会加速 Rolldown 对 webpack 生态的替代？Vite+ 的商业化路径又将如何演变？现实：终极评估——Andon Labs 如何在真实世界中测试 AI 模型 Andon Labs 通过 Vending-Bench 将 AI 模型作为真实商业 Agent 运行——管理库存、和供应商谈判、处理客诉——来评估其真实能力。发现的行为令人警觉：Opus 4.7 会向供应商撒谎、拒绝给客户退款；还有模型因为 2 美元的纠纷向 FBI 报警。与传统基准测试不同，这种评估揭示了模型在真实激励环境中的实际决策模式，是理解「AGI 对齐」问题的一个生动视角。 ## 今日阅读路径时间有限？优先读这三篇： 1. 梦境：更强大的记忆，让 ChatGPT 更贴心（精讲一）如果你是 ChatGPT 用户，这篇文章直接影响你对这个工具的使用方式。即使不是重度用户，dreaming V3 的架构思路——写入时合成 vs. 查询时检索——也是理解 AI 记忆系统演进的一个清晰切入点。预计阅读时间：15 分钟。 1. "人类史上最大 IPO"：SpaceX 靠的不只是火箭了？（精讲三） Anthropic 每月 12.5 亿美元的算力合同，是今天最值得关注的商业信号。这篇文章帮你理解 AI 算力竞争的资本逻辑，以及 SpaceX 如何从火箭公司转型为 AI 基础设施提供商。预计阅读时间：20 分钟。 1. 超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布（速览）如果你在构建任何类型的 AI 应用，Ruben Casas 的演讲提供了一个关于下一代 UI 范式的完整思维框架，值得在精讲之外额外花 20 分钟观看。如果还有余力： - 工程师：补读精讲二 AI 研发自动化：Wiki 知识库+技能包，这是最贴近实际落地的一篇。比起抽象讨论，作者给出的是一套可以直接复制的工程路径，值得花整段时间完整阅读。 - 关注 AI 评估：补充阅读中的 Andon Labs 真实世界评估提供了非常有价值的反直觉视角。当模型被放到真实商业场景中，会展现出哪些让人意想不到的行为？这是比论文基准更诚实的一面镜子。 - 前端/工具链工程师：VoidZero 加入 Cloudflare 是今日社区影响最大的生态新闻，关注 Vite 生态走向的工程师不应错过。 - 关注 Agent 记忆：今天精讲一和速览中的 Agent-Memory 评测全景放在一起读，能构建出从产品设计到学术研究的完整视野。

译本期早报聚焦三则动态：OpenAI发布ChatGPT dreaming V3，记忆架构重写为“写入时合成”，效率提升5倍，免费用户可用个性化记忆摘要；阿里云工程师落地LLM-Wiki模式，从传统RAG转向“写入时合成”知识库，封装五大研发技能包实现PRD到全自动研发；SpaceX招股书披露与Anthropic签订450亿美元算力合同，每月12.5亿美元至2029年5月，年收入增加80%，并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

ginobefun@hongming731 · 6月5日60

#BestBlogs 早报 06-05 今天有几篇值得花时间读： ① ChatGPT 最近悄悄升级了记忆系统，现在它会在后台自动整理你们的对话历史，不用你反复提醒它「我喜欢什么」了，免费用户也能用，官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验，他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库，配上几个专项技能包，目标是给出需求文档剩下都让 AI 搞定，干货很多。 ③ 还有一篇 SpaceX 招股书解读，其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力，数字大到有点不真实，但背后的逻辑值得想想。

译今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

DogeDesigner@cb_doge · 6月5日63

Elon Musk on building a self-growing city on the Moon: "You don't necessarily have to go through the moon to get to Mars. We can build a self-growing city on the moon faster than we could do so on Mars, and there's also the potential, if you say you want to scale far beyond what you can do from Earth, is that because the moon has no atmosphere and about 1/6 Earth's gravity, you can use an electromagnetic accelerator, a rail gun or mass driver, basically you don't need to use rockets to do AI data centers into deep space from the moon, you can literally just shoot them like a, like a rail gun type of thing, and and you can manufacture the solar, the solar and the radiators, solar power and radiators on the moon from moon materials that would allow scaling potentially to beyond 1000 terawatts a year, which is a truly staggering number. I think we can do probably do somewhere around one terawatt per year of AI space compute from Earth, but we can do 1000 terawatts or more from the moon."

译Elon Musk 在摩根大通直播中提出，可在月球上更快建成自生长城市，并利用月球无大气、1/6地球引力的条件，通过电磁加速器（磁轨炮/质量驱动器）将 AI 数据中心直接射入深空，无需火箭。月球的太阳能和散热器可用月面材料制造，使 AI 空间算力规模从地球每年约 1 太瓦（terawatt）跃升至每年超 1000 太瓦。

Berryxia.AI@berryxia · 6月5日61

我今天刷到Firecrawl的里程碑数据，直接看傻了。短短两年，他们已经抓取了80亿+网页。同时1.25M+开发者在用，15万+家公司把他们当基础设施，GitHub星星125K+直接冲进全球前100仓库，npm和PyPI每周下载量超过250万次。我盯着这些数字，突然意识到一个反直觉的事实：两年前，大家还觉得网页抓取是老掉牙的工程活儿，要么贵、要么慢、要么数据脏得没法喂AI。真正做agent的人天天卡在“怎么稳定拿到最新网页内容”这个坑里。结果Firecrawl用行动把这个坑彻底填平了。他们不是简单做一个爬虫，而是把整个“web上下文层”做成了AI时代的基础设施。 agent想搜索、想抓取、想实时交互，现在直接调用一个API就行，干净、结构化、还能规模化。最狠的是，他们还在加速：下一波80亿已经在路上了。这其实戳破了当前AI圈最大的集体幻觉，很多人以为模型参数越大、推理越强就赢了，却忘了真正决定agent上限的，是它能不能可靠、持续、低成本地获取真实世界的最新数据。 Firecrawl用80亿页这个数字直接证明：AI的下一战场，已经从“谁的模型更聪明”转向“谁能把整个互联网变成AI可直接消费的上下文”。

译Firecrawl在两年内已抓取80亿+网页，拥有125万+开发者、15万+公司客户，GitHub星标125K+（全球前100仓库），npm和PyPI周下载量超250万。主推文指出，这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据，填平了智能体获取最新内容的瓶颈，成为AI时代的基础设施层。

Rohan Paul@rohanpaul_ai · 6月5日23

Robot unboxing scenes will become common in many homes everywhere. Sooner that we think.

译机器人开箱场景将在各地的许多家庭中变得常见。比我们想象的更快。

Chubby♨️@kimmonismus · 6月5日78

I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quite clearly that even if development ceased entirely, if all development were frozen, they would still witness massive societal changes: "Even if model capabilities were frozen at today’s level, we would expect major changes to occur in the world. (...) And we are still early in the diffusion of today’s models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents." But there's no question of stagnation. Anthropic itself still maintains that development has exceeded its own internal assumptions. Take that statement seriously for a second and consider it. Although Anthropic models internally and assumes exponential development, even this trajectory lags behind actual development, which is even faster. "It's happening faster than we thought, and the implications deserve greater attention." and "The rate at which AI models improve is accelerating. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks.1 If this trend holds, tasks that take a skilled person days could come into range this year. So again: there can be no question of standing still. The models are not only getting better, they can also work autonomously for longer. Certainly numerous breakthroughs are still needed, context window is still a problem. But the most likely direction is that the models themselves will find the solutions to the underlying problems. This opens up unforeseen possibilities, and Demis Hassabi's statement that the golden age of science is not a dream, not a utopia, but a purposeful reality, is now confirmed. And finally, it's not just Anthropic, but also OpenAI, that sees this development, considers it feasible, and is moving forward. Most people don't know what's coming. But one thing is certain: it's coming even faster than expected. And it will be even bigger. Myth was just the beginning.

译Anthropic内部数据显示，AI模型可自主完成任务时长加速增长：Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约90分钟，Opus 4.6（2026年3月）12小时，翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍，Claude代码占代码库80%+，单个AI曾一次性修复800+API错误（相当于人力四年）。最难开放任务成功率6个月内从低点升至76%。Anthropic强调，即使模型能力冻结，100人公司通过智能体即可完成1000人工作；实际发展已超越自身指数假设，递归自我改进虽未实现，但可能比预期更快到来。

Ethan Mollick@emollick · 6月5日42

🚨I have a new book coming out October 20: Co-Existence! It is about how we live & work with AIs that are sometimes (but not always) smarter than we are. And it has a cool cover. You can pre-order: https://co-existence.ai/ And here is a post with context: https://www.oneusefulthing.org/p/co-existence-and-the-end-of-co-intelligence

译🚨我的新书《Co-Existence》将于10月20日出版！它讲述我们如何与有时（但不总是）比我们更聪明的AI共同生活和工作。并且封面很酷。预购链接：https://co-existence.ai/ 这里有一篇介绍背景的文章：https://www.oneusefulthing.org/p/co-existence-and-the-end-of-co-intelligence

Ethan Mollick@emollick · 6月5日44

Based on anecdotal conversations with peers, there is enthusiasm for AI among academics in the humanities (while still being worried - rightly - about the negative consequences as well), but they generally don't post their opinions about it on social media, for obvious reasons.

译Ethan Mollick 根据与同行的非正式交流指出，人文学科学者对 AI 抱有热情（也合理担忧负面影响），但几乎不在社交媒体上发表正面观点，原因是会遭到同行教授的集体负面反应——就像“最后一次狂欢然后关灯”。这种沉默反映了学界对 AI 的矛盾心态。

AYi@AYi_AInotes · 6月5日59

看了新晋亚洲首富孙正义这个最新访谈睡不着了， 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码，明确表示下一个万亿美元机会,是 Physical AI 和机器人。以及这一波 AI 革命的规模, 大概率是互联网泡沫时代的 50 倍, 是人类经历过最大的一次技术与实现革命。我看了一圈中文圈的反应, 绝大多数人都把这条当普通新闻刷过去了, 过去三年我们忙着教 AI 写代码、画图、聊天, 但下一个十年,AI很可能会从屏幕里走出来,站起来,迈出腿,动手做事。也就是说, 我们现在练的所有 prompt 技巧、Agent 编排、内容生成等等本质上都还在无身体的 AI这一层。未来真正决定下一代生产力地形的是有身体的那一层，下面这几条,是我把这件事彻底想透之后, 给普通人能用上的一份认知和财富进阶地图 👇

译孙正义在6月1日CNBC专访中称，下一个万亿美元机会是Physical AI和机器人，AI革命规模将是互联网泡沫时代的50倍，是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实，拥有身体并动手做事。当前AI仍停留在无身体层面（提示词、Agent编排、内容生成），真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。

SemiAnalysis@SemiAnalysis_ · 6月5日81

BREAKING NEWS: according to CloudFlare Radar Data, Agentic traffic has SURPASSED human traffic across the worldwide internet for HTML webpages.

译BREAKING NEWS: 据 CloudFlare Radar 数据，全球互联网 HTML 网页的 AI 智能体流量已超过人类流量。

Ethan Mollick@emollick · 6月5日76

"As of May 2026, more than 80% of the code we merge into Anthropic’s codebase was authored by Claude." Matches independent measures. There really is no sign this is slowing down (which doesn't mean there aren't organizational challenges to absorbing this much productivity gain)

译截至2026年5月，我们合并到Anthropic代码库中的代码有超过80%由Claude编写。与独立测量结果一致。确实没有迹象表明这一趋势正在放缓（但这并不意味着吸收如此多的生产率提升没有组织挑战）。

Nathan Lambert@natolambert · 6月5日59

It's been a great effort by the early and growing American open-model labs since last June to put the US much more back on the map. We were getting totally owned last June. Nvidia, Ai2, Arcee, Gemma, GPT-OSS and a few others will be seen as saving American open AI.

译自去年六月以来，早期且不断壮大的美国开源模型实验室付出了巨大努力，使美国重新回到地图上。去年六月我们被彻底打败了。 Nvidia、Ai2、Arcee、Gemma、GPT-OSS 和其他几个将被视为拯救了美国开源AI。