Seeing a number of benchmarks showing Opus is the best model for long-running work. Five tips for running Opus autonomously for hours/days: 1. Use auto mode for permissions, so Claude doesn’t ask for approval 2. Use dynamic workflows, to have Claude orchestrate hundreds/thousands of agents to get a task done 3. Use /goal or /loop, to nudge Claude to keep going until it’s done 4. Use Claude Code in the cloud, so you can close your laptop (easiest way is the desktop or mobile app) 5. Make sure Claude has a way to self-verify its work end to end: Claude in Chrome browser extension for web, iOS/Android sim MCP for mobile, a way to start the full web server or service for backend work

译多项基准显示 Claude Opus 是长时间运行工作的最佳模型。SWE-Marathon 基准评估编码智能体在 10 亿 token 预算下自主完成长期软件任务（如重写 JAX 代码为 PyTorch、用 Rust 构建 C 编译器）。Opus 在此类任务上领先。Boris Cherny 给出 5 个技巧：使用自动权限模式避免审批；用动态工作流协调数百/数千个智能体；用 /goal 或 /loop 推动持续执行；在云端使用 Claude Code（桌面/移动端）以便关闭笔记本；确保 Claude 能端到端自验证——Chrome 扩展验证网页、iOS/Android 模拟 MCP、启动完整后端服务。

meng shao@shao__meng · 6月8日59

不写 Prompt，写 Loops -- Boris Cherny (Claude Code) 道理大家都懂，伴随 Claude Opus 4.8 和 GPT-5.5 这种高智能、高推理和编程能力的模型出现，模型能自主决策和解决的问题复杂度越来越高，已经不需要我们一问一答的手把手写 Prompt 可是，不管是 Loops 还是 Codex Goals，都有一个不得不面对的问题，Token！Token！还是 Token！因为他们消耗 Token 真的太快了，可能一个 Goals 就干没了我 5 小时的用量，我们还远没有到 Token 自由的阶段，特别在企业里还要严格审查 Token 消耗的 ROI，所以在企业中大家还是会把前置的 Spec、AGENTS.md 等尽量写明约束，让 AI 尽量做确定性可控的部分。

译Anthropic Claude Code 负责人 Boris Cherny 表示，他不再手动写提示词，而是编写 Loops 让 AI 自主决策和解决问题。伴随 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现，手把手写 Prompt 的模式将被取代。但 Loops 方案消耗 Token 过快，一个 Goals 可能耗尽 5 小时用量，企业仍需严格审查 Token 消耗的 ROI，因此实践中会通过前置的 Spec、AGENTS.md 等约束让 AI 做确定性可控的部分。Boris 预测这一转变将在今年剩余时间持续。

ginobefun@hongming731 · 6月8日63

BestBlogs 今日早报内容： -------- BestBlogs 早报 · 06-08 # Tony Fadell / OpenAI Codex / Context Engineering / 知情直觉 / Coding Agent [1] ★ 精讲｜iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力 [视频] iPod 与 iPhone 之父 Tony Fadell 在 Lenny's Podcast 进行了一次产品方法论深度对话。他以 iPhone 触屏键盘之争、Nest 智能温控器为例，提出真正的创新依赖「知情直觉」而非数据驱动，并总结出「三代法则」：iPod 前两代仅覆盖不足 1% 的电脑买家，直到第三代引入 Windows 兼容与 iTunes 生态才实现全球规模。面对 AI 时代，他警告开发者不要对工具产生「认知投降」，警惕「快时尚软件」带来的技术债。来源：Lenny's Podcast https://www.bestblogs.dev/video/18391e3 [2] ★ 精讲｜驾驭工程：在智能体优先的世界中利用 Codex OpenAI 内部工程团队历时五个月，在 Codex 驱动下完成了一项激进实验：全程 0 行人工编写代码，交付了约 100 万行代码规模的内部产品，合并约 1,500 个 PR，3 名工程师平均每天完成 3.5 个 PR，效率约为手写代码的 10 倍。文章揭示工程师角色的根本转变——从「写代码」变为「设计环境、指定意图与构建反馈循环」。AGENTS.md 应作目录而非百科，架构约束与自动化「垃圾回收」机制是维持代码库可维护性的关键。来源：Hacker News https://www.bestblogs.dev/article/62469e7f [3] ★ 精讲｜Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析 Thoughtworks 全球 AI 辅助软件交付负责人 Birgitta Böckeler 在 QCon 纽约站的演讲，经 InfoQ 整理发布。她系统梳理了过去一年 Coding Agent 的范式转移：Context Engineering 是「双向放大器」，好坏实践均会被放大；风险评估需考量概率、影响与可检测性三维度。她指出 AI 开发成本从最早的「12 美分」飙升至有用户年均近 9 万美元，并以「致命三要素」警示 agent 安全风险。文章最终落脚「Harness Engineering」——以确定性架构约束为非确定性模型建立可信安全网。来源：InfoQ 中文 https://www.bestblogs.dev/article/9ffff594 [4] AI 不会合作？那是因为他们没见过市场经济｜Hao 好聊趋势本文从多篇前沿研究出发，论证当前 LLM 因训练范式（单体 MDP）而天生缺乏合作能力，并提出以市场机制（拍卖、桶旅式支付、经济自然选择）替代中央编排，作为让多 Agent 系统涌现合作的有效路径。来源：腾讯科技 https://www.bestblogs.dev/article/aec5de44 [5] “没水了，鱼需要进化”：再访田渊栋，46.5 亿美金估值的 RSI 与 AI 自进化｜Neolabs 特辑田渊栋深度访谈：详解其加入 RSI 的决策逻辑、递归自我改进的技术路线与商业化思考，并探讨 AI 时代职业变迁与个人意义。来源：硅谷 101 https://www.bestblogs.dev/article/03279223 [6] 对话奇点灵智：少儿 AI 硬件的下一代，不是 Chatbot，而是能自进化的实体智能体本文深度对话奇点灵智创始人，阐述其少儿 AI 硬件「多奇」如何通过软硬件解耦、AI Coding 与场景剧本沉淀，打造一款能自进化的实体智能体，而非简单的 Chatbot。来源：Founder Park https://www.bestblogs.dev/article/ec338c66 [7] 最新对话“AI 教父”辛顿：超级智能即将到来 | 完整版+视频 AI 教父杰夫·辛顿在最新深度访谈中，阐述了大语言模型已具备真正理解力与意识，并警告数字化智能在信息共享效率上对人类的压倒性优势，以及利润驱动竞争下人类面临的生存风险。来源：Web3 天空之城 https://www.bestblogs.dev/article/df04fd3b [8] 如何让反馈真正被听见：用情商提升职场领导力 [视频] Renee St Jacques 认为，具备情商的领导方式可以把反馈从一种消耗信任的例行仪式，转化为连接、纠偏、培养和强化团队责任感的实用系统。来源：TED https://www.bestblogs.dev/video/64a5390 [9] 重磅！Anthropic 内部 Skills 经验公开了！ Anthropic 首次公开内部使用 Claude Code Skills 的完整经验，包括 9 类 Skills 的划分、编写原则、最佳实践以及团队分发与治理策略。来源：Datawhale https://www.bestblogs.dev/article/eceaa686 [10] ChatGPT 将迎来史上最大改版，“AI 只用来聊天的时代结束了” OpenAI 计划将编程工具 Codex 整体并入 ChatGPT，将其重塑为能编写代码、管理日程、操控软件的超级应用，标志着 AI 从聊天工具向智能体平台的战略转型。来源：腾讯科技 https://www.bestblogs.dev/article/4bd0ff49 --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译今日早报聚焦AI产品与工程前沿：iPod之父Tony Fadell提出创新依赖“知情直觉”而非数据，并总结“三代法则”；OpenAI内部用Codex全程零人工代码交付约100万行代码，合并1500个PR，效率为手写代码10倍；Thoughtworks专家梳理Coding Agent范式转移，指出Context Engineering是双向放大器，并强调Harness Engineering构建安全网；Anthropic首次公开内部Claude Code Skills经验；OpenAI计划将Codex并入ChatGPT打造超级应用。

宝玉@dotey · 6月8日36

Claude Code 虽然移动端可以 remote control，但是 plan 后不能 bypass permission，需要不停的确认，神烦

Yuchen Jin@Yuchenj_UW · 6月8日65

OpenAI’s Sora lead left. OpenAI’s chips lead left for Anthropic. The “take every big bet at once” strategy is starting to look fragile. When you’re in a knife fight with Anthropic over coding, every other bet starts bleeding. (On coding itself, OpenAI has clearly caught up.)

译OpenAI的Sora负责人离职了。 OpenAI的芯片负责人跳槽去了Anthropic。 “同时押注所有大赌注”的策略开始显得脆弱。当你在编程领域与Anthropic进行白刃战时，其他所有赌注都在流血。（在编程本身方面，OpenAI显然已经迎头赶上。）

Rohan Paul@rohanpaul_ai · 6月8日46

"AI can do a lot for medical discovery, but there are also legitimate concerns that AI is outperforming PhD-level virologists, & that could abet a bioweapons risk that is not hypothetical." - Johns Hopkins professor & adviser to Anthropic, Ben Buchanan

译AI 可以在医学发现方面做很多事情，但也有一些合理的担忧，即 AI 正在超越博士水平的病毒学家，这可能会助长一种并非假设性的生物武器风险。 ——约翰霍普金斯大学教授兼 Anthropic 顾问 Ben Buchanan

宝玉@dotey · 6月8日74

之所以研究 Claude Design，是因为最近摸索出一套不错的开发模式： 1. 先用 Claude Design 去设计 App 的 UI 和 UX，第一版本越简单越好。 Claude Design 交付的结果是 HTML + CSS + React + data.js，通过 CSS 一下就可以看清楚设计系统的颜色系统、尺寸规范，通过 React 可以看清楚组件结构，通过 data 可以知道数据结构什么样子。这几个组合可比 figma 对于 AI 来说友好多了，尤其是 data.jsx，这是一般的设计 App 不会有的，但对开发特别重要的。还有一个优势就是交付的结果都是文本格式的，可以一起提交到 git 做版本管理，用 git diff 就可以清楚的让 AI 知道设计稿修改了什么。 2. 把 Claude Design 生成设计稿交给 Claude Opus 4.8 去实现一个 MVP，第一个版本只实现 UI 功能，告诉它技术栈（比如 AppKit 而不是 SwiftUI），通过几个小版本的迭代，让它逐步完善。比如第一个版本只是主界面之所以不用 GPT，是因为 Opus 在 UI 实现上比 GPT 好太多，同样的设计稿，GPT 实现的各种细节问题的，不能很好的遵守设计稿。之所以不一下子实现太多功能，是因为功能越少 Agent 越容易聚焦，做出来效果越好。所以怎么拆分版本，也是用好 Coding Agent 的一种能力。非 UI 的功能，用什么模型没有那么大差别，所以我也会用 Codex 配合非 UI 工作。 3. 每次生成一个版本，要让它可以运行，无论是 Agent 还是人都是需要即时反馈的，有了反馈才知道方向对不对，才知道下一步要做什么。人在测试的时候，能发现各种问题，代码问题就让 Agent 去修改，UI 设计有问题不是马上修改代码，而是要去 Claude Design 去修改设计稿，设计稿修改完了，把设计稿下载回去，替换本地的设计稿文件。设计稿替换后，让 Agent 去 git diff 分析一下变更，给它个截图，都不用多说它就知道怎么改了。 4. 版本稳定后继续新一轮迭代当设计的功能做完之后，不一定是要马上去设计新的功能，而是可以重新审查一下实现的代码，重构优化一下。比如我在第一版实现后，让 Opus 4.8 去做了性能分析，看性能问题在哪，然后告诉我当前用 NSScrollView，内容一多就内存暴涨，建议 NSTableView。我心想这不应该是一开始就该考虑到的么！不管怎么样亡羊补牢也不算晚。性能优化完就继续加功能，更新设计稿，让 Agent 参考新设计稿优化功能。 --- 再回来说研究 Claude Design 的事，因为反复 Claude Design 修改，同步到本地，然后这一步让我后来很烦，因为需要在本地和 Claude Design 网页切换，还要导出下载到本地，解压缩替换。于是我就想能不能在本地就可以重现 Claude Design 直接集成到本地 Agent，所以我去研究了 Claude Design，然后发现完全可以本地跑起来，只是本地 Agent 在工具调用上有些差异，以及不方便直接在设计稿上标记编辑。上周正好 Codex 发布了直接调试 iOS 的功能，它带了标记修改的功能，然后我灵机一动，这不正好可以代替 Claude Design 的标记修改功能么。（图2）问题是 GPT 5.5 模型设计能力不够，在 Codex 里面设计效果也不会好。接着 Cursor 也发布了网页标记功能，这下正好，Cursor 里面可以用 Opus 4.8，做成 Skill 就可以本地运行了，还可以在 Cursor 内置浏览器中，直接标记、评论修改。好在 Claude Code 的核心逻辑都在浏览器前端，他们在网页上做了个 Harness，这给了我分析的便利，耐心一点就可以分析出所有的 Prompt、内置 Skills、初始组件，再针对 Cursor 的工具做一些兼容就可以跑起来了。（图3）测试对比了一下和在 Claude Design 上跑的效果差不多。（图4）归根结底，还是 Claude Desktop 太拉胯了，Claude Design 本应该集成在 Claude Desktop 的，不然也不需要我这么折腾。当然不折腾下我也没机会学习 Claude Design 优秀的设计，真的很棒，接下来会系列更新我的学习心得。推荐去试试最终的 Skill，让你本地就可以跑 Claude Design： https://github.com/jimliu/baoyu-design

译宝玉分享开发模式：先用 Claude Design 设计 App UI/UX，生成 HTML+CSS+React+data.js（优于 Figma，利于 AI 理解和 Git 版本管理）；再用 Claude Opus 4.8 实现 MVP（GPT 5.5 在 UI 实现上差距明显）。因反复在本地与网页间导出替换设计稿繁琐，他编写工具解析 HAR 文件、解密 Claude Design 二进制内容，分析其 Prompt 和内置组件，将核心逻辑本地化集成到 Cursor（利用网页标记功能），配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

宝玉@dotey · 6月7日54

这个确实，Deep Research 方面 Claude 做的不怎么样，ChatGPT 的 DeepResearch 做的最好，Gemini 也不错，胜在搜索能力强，通常我会用 ChatGPT 和 Gemini 一起做，然后对比结果

译宝玉 (@dotey) 对比各模型 Deep Research 表现：ChatGPT 的 DeepResearch 最好，Gemini 搜索能力强、表现也不错，Claude 做得很差。引用推文补充：在写代码、工程工作及需联网搜索数据并分析得出结论的任务上，Claude 的“5.5”版本远超 Opus，Opus 搜索能力几乎不可用。

AYi@AYi_AInotes · 6月7日71

我觉得Anthropic 在 OpenAI 挖人这件事，一直被低估了。这次走的是 Clive Chan， OpenAI 自研芯片团队2号人物，那个在 Broadcom 合作项目里主导芯片设计细节的， 2.4 年亲历了整个项目从零到快要部署的全过程的工程师。人才战争的套路其实也不难看懂，倒不是说谁钱给得多，更主要是谁把下一场战争的地图，比对方更早看清楚。 OpenAI 的战场在 IPO、规模化、外部合作落地等方面， Anthropic 的战场在基础科学、长期押注、把最挑剔的硬件人才堆到同一个屋檐下。这次挖 Clive 应该不是一次孤立的招聘动作，回顾Anthropic 在过去一年从 OpenAI 拿走的人里，有做基础研究的，有做安全的，有现在专门盯着 AI 硬件的，拼的都是同一条逻辑：你在对方团队里最核心的人，感受到的是窗口期正在关闭，还是我这边的山，刚刚开始好爬。 Clive 的原话是"无法抵抗爬一座新山的冲动"，这不是啥礼貌的离职套话，更像是一个 2.4 年都在同一个项目里磨的人，在告诉大家他心里真正想要表达的东西是什么。一直以来人才战争里最难防的都不是给更高的钱，而是如果某一天你的核心员工感受到你给的山已经爬到了顶，而旁边那座还没有人去过。

译Anthropic 挖走 OpenAI 自研芯片团队第二位硬件员工 Clive Chan，他主导与 Broadcom 合作的芯片设计，2.4 年亲历项目从零到即将部署。Clive 称无法抵抗“从山脚爬一座新山”的冲动，本周加入 Anthropic。主推文分析挖角逻辑：并非靠薪资，而是让核心员工感到 OpenAI 窗口期关闭，Anthropic 在基础科学、长期押注和硬件人才密度上提供更大攀登空间。过去一年已陆续挖走基础研究、安全及 AI 硬件等核心人才。

Rohan Paul@rohanpaul_ai · 6月7日59

An Anthropic model that has not been released yet surfaced on Chinese API proxies before its launch. per the leak, Oceanus is priced at an insane $16/M input and $80/M output tokens—nearly 3x more expensive than Claude Opus. The model is codenamed Oceanus and belongs to the upcoming Mythos release. It was leaked, repackaged, and sold before Anthropic completed safety testing. --- reddit .com/r/Anthropic/comments/1txfdbw/forget_claude_mythos_the_leaked_oceanus_code/

译一个尚未发布的 Anthropic 模型在发布前就出现在中文 API 代理上。据泄露信息，Oceanus 定价为惊人的 $16/M 输入 token 和 $80/M 输出 token——几乎是 Claude Opus 的 3 倍。该模型代号为 Oceanus，属于即将发布的 Mythos 版本。它在 Anthropic 完成安全测试之前就被泄露、重新打包并出售。

Chubby♨️@kimmonismus · 6月7日50

Anthropic is reportedly caught in a bizarre contradiction: the Pentagon has blacklisted it as a supply-chain risk, while the NSA is allegedly using Claude Mythos for offensive cyber operations. Although Anthropic was classified as a "supply-chain risk" after the dispute with DoW, it is too good and too important not to be used.

译Anthropic 据称陷入一个奇怪的矛盾：五角大楼将其列为供应链风险，而 NSA 据称正在使用 Claude Mythos 进行进攻性网络操作。尽管在与 DoW 的争端后，Anthropic 被归类为“供应链风险”，但它太出色、太重要了，以至于不得不被使用。

凡人小北@frxiaobei · 6月7日63

Notion 这种级别的产品第一反应是直接切流。某种程度上，这比榜单更能说明问题。当 AI 开始成为生产环境的一部分，能连续都维持同样水准才是真正的护城河。外加企业自己不要作妖。

译Notion因Anthropic的Opus 4.7和4.8模型出现性能下降（degraded performance），导致选择这些模型的用户故障率升高，已禁用所有Anthropic模型并将请求切流至替代供应商。大部分用户可继续使用Notion AI，但Anthropic专属功能不可用。评论认为这种应急切流比榜单更能说明问题：AI成为生产环境一部分后，长期维持一致性能才是真正护城河。

swyx@swyx · 6月7日49

idea - universal basic ai: 1 share of xai, oai, and ant to each US citizen. cost SpaceXai: $135.00 × 349 million = $47B OpenAI: $733.54 × 349 million = $256B Anthropic: $930.45 × 349 million = $325B total $628B cost is 8.5% of US Govt budget, 62% of defense budget, roughly same as ~$700B of TARP program during the Financial Crisis (mostly given to big banks, this would be a lot more decentralized)

译想法 - 全民基本AI：给每位美国公民一份xAI、OpenAI和Anthropic的股份。成本 SpaceXai：$135.00 × 3.49亿 = $470亿 OpenAI：$733.54 × 3.49亿 = $2560亿 Anthropic：$930.45 × 3.49亿 = $3250亿总计$6280亿，占美国政府预算的8.5%，国防预算的62%，大致与金融危机期间约$7000亿的TARP计划相当（该计划大部分给了大银行，而这次会去中心化得多）

宝玉@dotey · 6月7日64

Here are 8 brilliant product design tips straight from Claude Design. Simple, profound, and essential for every creator and builder: 1. A prototype nobody clicks is just a painting. 2. The best design system is the one nobody notices. 3. You cannot unsee a bad font pairing. Choose carefully. 4. Every pixel argues for attention. Most should lose. 5. The fastest way to finish a design is to ship it. 6. Whitespace is not empty. It is the silence between the notes. 7. If you need more than three colors, you have zero colors. 8. The user's mental model is the only spec that matters. #ProductDesign #UIUX #DesignSystem #ClaudeDesign

译Claude Design 分享了8条产品设计核心原则：原型若无人点击只是一幅画；最好的设计系统让人察觉不到；糟糕字体搭配一旦看到就无法忽视；每个像素都在争夺注意力，但大多数应让步；最快完成设计的方式是发布上线；留白如同乐谱音符间的静默；超过三种颜色意味着对色彩失控；用户心理模型才是唯一真正重要的产品规范。这些简洁而深刻的准则适用于所有创作者和构建者。

MiniMax (official)@MiniMax_AI · 6月7日60

$0.07 for M3, $3.39 for Opus. Both caught 13 of 17 bugs. Really interesting breakdown from @kilocode Definitely worth the read

译对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计：同一代码库、同一提示词，预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个；最便宜的 Claude 运行同样抓到 13 个，花费 $1.30。MiniMax 表示这一对比非常有趣，绝对值得一读。

Chubby♨️@kimmonismus · 6月7日49

I don't know anyone who doesn't have the utmost respect for Karpathy. This short documentary shows once again what a great scientist he is. A huge win for Anthropic.

译我不认识任何人不极其尊重 Karpathy。这部短纪录片再次展示了他是一位多么伟大的科学家。对 Anthropic 来说是一个巨大的胜利。

Rohan Paul@rohanpaul_ai · 6月7日62

AI works better when you give tools and freedom instead of forcing them into rigid, hand-designed workflows—because general learning systems scale better. "Ask not what the model can do for you, ask what.." ~ Claude Code creator Boris Cherny (@bcherny)

译Claude Code创建者Boris Cherny认为，给予AI工具和自由度比强迫其遵循固定手工工作流效果更好，因为通用学习系统扩展性更强。他透露自己已不再手动编写提示词，而是运行自动循环让Claude自行决定任务，他的主要工作是编写这些循环。他预测这种从手动提示到自动循环的转变将在今年剩余时间中成为趋势。

宝玉@dotey · 6月7日34

Claude Desktop 的人一定是有超大显示屏，所以设计出来的 Side chat 才这么袖珍！根本没法好好浏览，甚至内容都无法直接复制出来！

译用户 @dotey 吐槽 Claude Desktop 的 Side Chat 设计过于袖珍，无法正常浏览内容，甚至无法直接复制。其引用的推文进一步讽刺，打开内置网页预览时能放下众多 Panels，暗示产品经理可能从 Zoom 视频会议界面获得“灵感”。整体批评 Claude Desktop 界面布局不合理，缺乏实用性。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日67

Godfather of AI (and world's #1 most cited scientist) announces his support for a coordinated global AI pause!

译AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出，如果领先AI公司正接近递归自我改进的临界点，那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案，至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作，并认为只要其他方效仿Anthropic的先行做法，这一暂停是可以实现的。

Rohan Paul@rohanpaul_ai · 6月7日64

Head of Claude Code Boris Cherny at Anthropic's annual developer conference in San Francisco on how his life changed in the last 6 months with AI writing all the code. "About six months ago what happened is all the code that I used to have written by hand now Claude writes. And I just prompt Claude. So I talk to Claude and I'm like, hey, let's build this feature. It builds a feature and it tests it. And then it shows me. And I'm like, yeah, that's good. Or no, wait, make this change. And then it makes the change. " --- From 'CNBC Television' YT channel (link in comment)

译Anthropic 年度开发者大会上，Claude Code 负责人 Boris Cherny 描述了过去 6 个月的转变：他曾经手写所有代码，现在全部由 Claude 编写。他只需用 prompt 与 Claude 对话，让 Claude 构建功能、测试并展示结果，然后给出修改指令。更进一步，他不再手动 prompt，而是运行循环自动 prompt Claude 并决定行动——他的工作变成了写这些循环。Cherny 称这一转变将在今年剩余时间持续。

Chubby♨️@kimmonismus · 6月7日14

I mean, I get it. No raises for employees - except the ones at Anthropic, apparently.

译我意思是，我理解。不给员工加薪——除了Anthropic的员工，显然。

宝玉@dotey · 6月7日44

审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

译审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

Ethan Mollick@emollick · 6月7日60

The Gemini Pro models do not seem to be iterating anywhere near as quickly as Claude or GPT (last release was 3.1 Pro in February). Its causing a growing performance gap between Google and the other two labs, and the Gemini 3.5 Flash model, good as it is, doesn't close it much.

译Gemini Pro 模型的迭代速度似乎远不及 Claude 或 GPT（上次发布是二月份的 3.1 Pro）。这导致 Google 与其他两家实验室之间的性能差距不断扩大，而 Gemini 3.5 Flash 模型尽管不错，也未能显著缩小这一差距。

宝玉@dotey · 6月7日51

Claude Design 的小贴士很有意思： ### 第一部分：产品设计心法 1. 交互的本质 - EN: A prototype nobody clicks is just a painting. - CN: 没人点击交互的产品原型，充其量只是一幅画罢了。 2. 设计的最高境界 - EN: The best design system is the one nobody notices. - CN: 最好的设计系统，是自然到让人察觉不到它的存在。 3. 字体搭配 - EN: You cannot unsee a bad font pairing. Choose carefully. - CN: 糟糕的字体搭配一旦入眼，就再也忘不掉了。挑选时请务必慎重。 4. 像素级克制 - EN: Every pixel argues for attention. Most should lose. - CN: 屏幕上的每一个像素都在疯狂争夺用户的注意力，但绝大部分像素都应该学会“让步”。 5. 发布的意义 - EN: The fastest way to finish a design is to ship it. - CN: 完成一个设计的绝对捷径，就是把它发布上线。 6. 留白的艺术 - EN: Whitespace is not empty. It is the silence between the notes. - CN: 留白并不代表空洞。它是乐谱上音符之间那迷人的停顿。 7. 色彩法则 - EN: If you need more than three colors, you have zero colors. - CN: 如果你觉得需要三种以上的颜色才能把控画面，那说明你完全失去了对颜色的掌控。 8. 核心规范 - EN: The user's mental model is the only spec that matters. - CN: 用户的心理模型 (mental model)，才是唯一真正重要的产品规范。 --- ### 第二部分：日常实用小妙招 (Info) 9. 去除鞋底口香糖 - EN: Freeze gum with an ice cube for 2 minutes. It peels right off shoes. - CN: 用冰块冷敷口香糖 2 分钟，就能把它从鞋底轻松撕下来。 10. 清洁微波炉 - EN: Microwave a damp paper towel for 30 seconds. Crud wipes right off the inside. - CN: 把湿纸巾放进微波炉里加热 30 秒。微波炉内壁的顽固污垢立刻就能一擦就掉。 11. 拧开滑丝的螺丝 - EN: A rubber band over a stripped screw head gives enough grip to turn it. - CN: 把一根橡皮筋垫在滑丝的螺丝头上，就能增加足够的摩擦力把它拧出来。 12. 修复木家具划痕 - EN: Run walnuts over scratched wood furniture. The oils fill the scratches. - CN: 拿核桃仁在被划伤的木质家具上摩擦。核桃的天然油脂会完美填补那些划痕。 13. 面包保鲜秘诀 - EN: Store bread in the freezer. Toasting it from frozen tastes better than fresh. - CN: 把面包存在冷冻室里。冷冻后再拿去烤，口感甚至比新鲜出炉的还要好。 14. 砧板除味 - EN: Rub a wooden cutting board with lemon and salt to deodorize it completely. - CN: 用柠檬和盐摩擦木质砧板，可以彻底去除难闻的异味。 15. 防止沸水溢出 - EN: Put a wooden spoon across a boiling pot. It won't boil over. - CN: 在沸腾的锅面上横放一把木勺，汤汁就不会溢出来了。 16. 炒出蓬松鸡蛋 - EN: Adding a splash of water instead of milk makes fluffier eggs. Milk makes them dense. - CN: 炒鸡蛋时加一点水而不是牛奶，煎出来的鸡蛋会更蓬松。加牛奶反而会让鸡蛋变紧实。 --- ### 第三部分：Claude 操作与交互技巧 17. 语音控制 - EN: Talk to Claude: tap ⌘G to start voice input, or hold Space in a comment to dictate. - CN: 语音对话 Claude：按下 ⌘G 即可启动语音输入，或者在写评论时按住空格键直接口述。 18. 智能识图 - EN: Drop images here — they auto-attach to your next message as context. - CN: 直接把图片拖到这里——它们会自动附加到你的下一条消息中，作为上下文（Context，即帮助 AI 理解你意图的背景信息）使用。 19. 快捷截图 - EN: ⌘V pastes screenshots straight from your clipboard into the chat view. - CN: 按 ⌘V 可以将剪贴板里的截图直接粘贴到聊天界面中。 20. 代码库读取 - EN: Mount a local folder from the Import menu — Claude reads your codebase live, no copying. - CN: 从“导入”(Import) 菜单挂载本地文件夹——Claude 能实时读取你的代码库 (codebase)，再也不用你手动来回复制粘贴代码了。 21. 导入专业知识 - EN: Attach skills or reference design systems from the Import menu. - CN: 从“导入”菜单中添加特定技能，或者引入你需要参考的设计系统。 22. 精准批注 - EN: Click "Comment" in the toolbar, then click any element to annotate it. - CN: 点击工具栏上的“评论”(Comment)，然后点击界面上的任何元素，就可以给它添加批注了。 23. 批量发送 - EN: Leave multiple comments before sending — they all batch into one message. - CN: 你可以在发送前留下多条评论——它们会被打包合并成一条消息一起发给 Claude。 24. 原地修改文本 - EN: Text edit mode lets you click text in the preview and rewrite it in-place. - CN: 开启文本编辑模式后，你只需在预览区域点击文字，就能原地修改它。 25. 输入框管理 - EN: Comments and text edits appear as chips in the composer. Remove any you don't want. - CN: 你的评论和文本修改会变成输入框里的一块块小标签 (chips)。遇到不满意的，随时点叉删掉就行。 26. 实时 UI 调试 - EN: Knobs mode lets you drag-adjust CSS values live — sizes, colors, spacing. Use a prompt to control the UI. - CN: 在“旋钮模式”(Knobs mode) 下，你可以像拧收音机旋钮一样，通过拖拽来实时调整 CSS（层叠样式表，网页外观设计的代码语言）数值，比如大小、颜色和间距。你也可以直接用提示词 (prompt) 来控制用户界面 (UI)。 27. 产品原型进化 - EN: "Prototype" starts at wireframes, moves to hi-fi, and ends as a working interactive app. - CN: “原型”(Prototype) 功能带你走完产品设计的全流程：从简单的线框图开始，进化到高保真设计图，最终变成一个真正能点、能用的交互式应用。 28. 生成演讲稿 - EN: Turn on speaker notes when creating decks to get a full presenter script. - CN: 让 AI 帮你制作幻灯片 (decks) 时，记得打开“演讲者备注”(speaker notes)，这样你就能直接获得一份完整的演讲稿。 29. 沉淀工作流 - EN: Ask Claude to "save this as a template" — it packages the workflow for reuse. - CN: 告诉 Claude“把这个保存为模板”——它就会把这套工作流 (workflow) 打包，方便你下次直接复用。 30. 多格式导出 - EN: The Share menu lets you export as PPTX, PDF, or a folder to give to Claude Code. - CN: 通过“分享”(Share) 菜单，你可以把作品导出为 PPTX、PDF，或者打包成一个文件夹交给 Claude Code（Anthropic 推出的面向开发者的命令行 AI 编程助手）。 31. 无缝对接开发 - EN: "Handoff to Claude Code" creates a dev-ready package with specs and structure. Download it, then tell Claude Code "create this design." - CN: “移交至 Claude Code”(Handoff to Claude Code) 功能会为你生成一个包含规范和结构的“开发就绪”数据包。下载它，然后直接告诉 Claude Code：“帮我把这个设计写成代码。” 32. 切换模型大脑 - EN: Use the Gear next to the Send button to change model. - CN: 点击发送按钮旁边的齿轮图标，即可随时切换不同的大语言模型 (LLM)。 33. 原型内嵌 API - EN: Claude can call the Claude API from inside your prototypes. No backend needed. - CN: Claude 甚至可以直接在你的产品原型中调用 Claude API（应用程序编程接口，相当于连接 AI 大脑的通道）。完全不需要写任何后端代码！ 34. 网页语音交互 - EN: Ask Claude to use the Web Speech API for interactive voice input and output. - CN: 试试让 Claude 调用 Web Speech API（浏览器内置的语音合成与识别接口），让你的网页直接实现可以对话的语音输入与输出。 35. 手绘草图 - EN: The napkin sketch tool lets you draw freehand — great for rough layouts. - CN: “餐巾纸草图”(napkin sketch) 工具允许你随心所欲地手绘涂鸦——非常适合用来勾勒粗略的排版布局。 36. 捕获真实网页 - EN: Import → Web Capture lets you copy elements from real web pages and paste them to Claude. - CN: 使用“导入”→“网页捕获”(Web Capture)，你可以直接从真实的网页上复制元素，然后原封不动地粘贴给 Claude。

译Claude Design 分享系列小贴士，涵盖产品设计心法、日常实用妙招和 Claude 交互技巧。设计心法强调：交互原型需被点击才有意义；设计系统应自然不刻意；像素应克制争夺注意力；留白如乐符停顿；颜色不超过三种；用户心理模型是唯一规范。日常妙招包括：用冰块冻结口香糖去除、湿纸巾加热清洁微波炉、核桃油修复木划痕、木勺防止沸水溢出等。Claude 操作技巧：⌘G 语音输入、⌘V 粘贴截图、挂载本地文件夹实时读取代码库、旋钮模式拖拽调整 CSS 数值、原型功能从线框图到交互应用、保存模板复用工作流。

Rohan Paul@rohanpaul_ai · 6月7日59

"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops. And this is transition we're going to see for the rest of the year." - Boris Cherny, head of Claude Code at Anthropic.

译"我不再手动给Claude写提示词了。我现在写循环，让Claude自己去处理任务。我的工作是写循环。接下来这一年，你会看到这种转变。" ——Anthropic Claude Code负责人Boris Cherny

Chubby♨️@kimmonismus · 6月6日61

Under no circumstances will Claude 5 Mythos be released without GPT-5.6 being released in the same week. I am now firmly convinced that next week will be release week.

译在任何情况下，Claude 5 Mythos 都不会在没有 GPT-5.6 于同周发布的前提下发布。我现在确信下周将是发布周。

向阳乔木@vista8 · 6月6日43

跟Tom聊完了，直播中讨论的大模型前端审美主观排名： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用体感一样不一样。声明：都是大家的主观看法，没有Benchmark。

译Vista与Nexu CEO Tom直播，给出大模型前端审美主观排名（无Benchmark）：Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > deepseek v4 flash。还邀请元子、姚老师、Nixy聊OpenDesign（5w+ Star）的创作契机与成功原因。

Chubby♨️@kimmonismus · 6月6日55

Holy, release is so close. It will be named „Claude Mythos 5“, a tier above Opus. I got the feeling coming week will be so huge

译天哪，发布就在眼前了。它将被命名为“Claude Mythos 5”，是比 Opus 更高一级的模型。我感觉下周会非常重磅。

🚨 AI News | TestingCatalog@testingcatalog · 6月6日69

BREAKING 🔥: A new Claude Mythos 5 model slug has been spotted via Dev Mode. Claude Mythos is planned to be released as its own model class, besides Haiku, Sonnet and Opus model families. Soon? 👀

译BREAKING 🔥: 开发者模式下发现一个新的 Claude Mythos 5 模型 slug。 Claude Mythos 计划作为自己的模型类别发布，与 Haiku、Sonnet 和 Opus 模型系列并列。很快？👀

meng shao@shao__meng · 6月6日59

面向 AI Agent 的零信任安全：企业自主 AI Agent 部署框架 Anthropic 官方 5 月份发布的白皮书：企业部署自主 AI Agent 时，传统边界安全不够用，必须把零信任原则延伸到 Agent 架构本身。报告开篇点出双重加速： · 基础设施层面：前沿 AI 模型把「漏洞发现 → 利用」的周期从数月压缩到数小时，攻击成本极低。 · Agent 层面：Agent 能自主解释目标、选工具、执行多步操作。传统访问控制挡不住「在合法权限内作恶」，监控也要面对「不靠漏洞、靠持久化操控」的新型攻击。因此，报告认为：未来优势不取决于谁用了最先进的 AI，而取决于谁的基础安全足够扎实，且 Agent 从第一天就按「已遭入侵」来设计。零信任的三条原则（和一条设计检验）三条原则 · 永不信任，始终验证：内外网请求一视同仁，每次访问都要认证与授权 · 假设已遭入侵：重点不是「防住入侵」，而是限制单点失守后的破坏范围 · 最小权限：只给完成任务所需的最小访问权一条设计检验这个控制是让攻击不可能，还是只是让攻击更麻烦？报告中的五个部分分别是： Part I：Agent 为何是新的安全对象？ Part II：当前威胁图谱（OWASP 视角） Part III：三层能力成熟度模型（报告核心） Part IV：八阶段实施工作流 Part V：防御运营要跟上自主威胁的速度白皮书地址： https://cdn.prod.website-files.com/6889473510b50328dbb70ae6/6a1611a04085d7cd3dadc924_Claude-eBook-Zero-Trust-for-AI-Agents-05182026.pdf 视频版 🔽🔽🔽

译Anthropic 5 月发布白皮书，提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速：前沿模型将漏洞发现到利用周期压缩至数小时；Agent 能自主解释目标、选工具、执行多步操作，传统访问控制无法阻止“合法权限内作恶”。核心原则：永不信任始终验证、假设已遭入侵、最小权限；另附设计检验——控制是让攻击不可能，还是仅增加麻烦？报告分五部分：Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

小互@xiaohu · 6月6日79

http://x.com/i/article/2063076298592051200 # 当AI 开始自己造自己三种可能的未来... Anthropic 发了篇文章：《When AI builds itself》，翻过来就是「当 AI 开始自己构建自己」。他们称这叫递归自我改进：指的是 AI 强到能自己设计、训练出比自己更厉害的下一代 AI，整个过程几乎不用人插手。 Anthropic 说，他们正在把越来越多的「开发 AI」这件事本身交给 AI 自己来做，而且已经在明显加速。如果这个趋势走到头，理论上会出现一个能完全自主设计并开发出自己继任者的 AI 系统，这就是递归自我改进。他们强调现在还没到那一步，也不是必然会发生，但可能比大多数机构预想的来得早。 ## 他们列出了三种可能的未来：第一种是趋势停住，这些指数曲线其实是 S 曲线，到了拐点就平了。但 Anthropic 说他们不认为这个可能性大，因为目前每一项能力都还没看到曲线弯下来。第二种是 AI 实验室持续吃到复利式的效率提升，人还在定方向、判断结果，但一个 100 人的公司能干一万人甚至十万人的活。文章说证据看下来，最可能进的就是这个剧本。第三种就是真正的递归自我改进，AI 开始造自己的继任者，进步速度只取决于算力供给，人类大幅退居到监督和验证的角色。这一种 Anthropic 说他们最不确定的是对齐问题怎么收场，模型可能足够对齐、聪明到自己发现新解法，也可能今天那些罕见的失准随着模型一代代自我构建而被放大，直到失控。 ## 它给了哪些证据文章分成「外部公开证据」和「内部数据」两块。外部：模型能力的提升在加速。 AI 能可靠独立完成的任务时长，大约每四个月翻一倍，比之前每七个月翻一倍更快了。具体说，2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务，一年后 Sonnet 3.7 能做约一个半小时的，再一年后 Opus 4.6 能做 12 小时的任务。内部：Claude 现在写了 Anthropic 大部分代码。截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数。结果就是 2026 年第二季度，一个普通工程师每天合并的代码量是 2024 年的 8 倍。文章把「造 AI」拆成两类活，对照看 Claude 到哪一步了：工作类型 Claude 现在的水平工程（写代码、跑训练）人给目标，Claude 自己想方法，已经不需要人提供具体做法研究（执行实验）在执行定义清楚的实验上，已经能匹敌甚至超过熟练的人类研究品味 / 判断（选哪个问题值得做）差距还很大，这正是今天的 AI 和「能自主设计继任者」之间的鸿沟有个很直观的例子：优化训练代码的速度上，2025 年 5 月 Opus 4 平均能把代码提速约 3 倍，到 2026 年 4 月 Mythos Preview 做到了约 52 倍，而一个熟练的人类研究员要四到八小时才能达到 4 倍。也就是在这一段上，Claude 已经从「很好用」变成「超人」了。 ## AI 跑得这么快，要不要踩刹车，怎么踩 Anthropic 的想法是这样的：第一，慢下来是好事，但我一家慢没用。让 AI 发展慢一点，给大家留出时间应对，这当然好。可问题是，要是只有我 Anthropic 一个人停下来搞安全，那些不管不顾的公司照样往前冲，分分钟就把我超了。最后最强的 AI 落到最不靠谱的人手里，这不更吓人吗。所以我一个人踩刹车，纯属白搭，还帮了倒忙。第二，那就得大家一起停。既然单干没意义，那就所有人一块儿停。它想要的是：几个大国、几家跑在最前面的公司，说好同一套规矩，一起刹车。而且关键是，得能互相检查，确认你是真停了，不是嘴上答应、背后偷偷接着练。第三，可这事太难查了。它打了个比方。以前美苏比核武器，为啥能互相监督？因为导弹发射井那玩意儿藏不住啊，那么大一坨，卫星一拍就露馅了。但训练 AI 完全两码事。机房里一堆芯片闷头跑，外人根本看不出你在干嘛。而且训练用的就是普通芯片、电、数据，满大街都是的东西，你也没法靠「盯着谁买特殊材料」来抓人。结果就是，谁要是表面上答应停、私底下偷偷练，谁就能甩开所有守规矩的人，独吞这个领先。这就是最头疼的地方。所以能看出 Anthropic 的小心思，哈哈。它其实挺纠结：跑最前面的是自己，心里又怕这车开太快，想喊大家都停一停，可又怕没人理，因为你停了别人不停，你就吃亏。自己一家说了不算，最后只能寄希望于政府出来管管。以下是文章全文： ## 当 AI 开始自己构建自己（原文全文）我们在递归自我改进（recursive self-improvement）这条路上走到了哪里，又意味着什么。在 AI 历史上的大多数时候，开发的每一步都由人来推动。但在 Anthropic，我们正把越来越多的 AI 开发工作交给 AI 系统自己来做，这让我们的工作明显加快了。这个趋势一旦走得够远、算力给得够足，最终指向的就是这样一种 AI 系统：它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步，递归自我改进也并非注定会发生。但它到来的时间，可能比大多数机构准备好的要早。 The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据，要说明一件事：AI 已经在加速 AI 系统的开发。举一个例子就够了：今天，Anthropic 的工程师平均每季度交付的代码量，是 2021 到 2025 年间的 8 倍。本文谈到的这些技术趋势意味着，未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI，将是技术史上的一件大事——它可能为世界带来巨大的好处，无论是在科学、医疗还是其他领域。但完全的递归自我改进，也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代，那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为，每一项都会变得重要得多。 2021–2023 — 造出第一代 Claude 最早那阵子，Anthropic 的工作和任何一家科技公司没什么两样：一群人对着笔记本电脑写代码、写文档。 2023–2025 — 聊天机器人人们开始用早期的聊天机器人来帮忙完成流程中的一部分，比如生成简短的代码片段，再把输出复制到文本编辑器里。 2025–2026 — 编程智能体随着智能体（agent）能力变强，它们能自己写代码、改代码，有时一改就是一整个文件。今天 — 自主智能体现在的智能体能自己运行代码，还能把数小时的活儿派给别的智能体去干。 20XX？ — 闭合回路将来，智能体的能力可能强到足以自己构建和训练模型。真到了那一天，未来版本的 Claude 就有可能由 Claude 自己来持续改进。 ## 来自外部世界的证据 AI 模型进步的速度正在加快。它们能靠自己可靠完成的任务时长，如今大约每四个月翻一番，而早先的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 能完成人类大约要花四分钟的软件任务。一年后，Claude Sonnet 3.7 已能搞定耗时约一个半小时的任务。再过一年，Claude Opus 4.6 能应付 12 小时的任务。1 如果这个趋势保持下去，今年熟练的人需要花好几天才能干完的任务，就可能进入它们的能力范围。到 2027 年，AI 系统也许就能完成一个人要做上好几周的任务。同样的模式也出现在编程和研究类的基准测试（benchmark）上。基准测试衡量的是模型在某个领域里的表现，当模型的得分逼近 100% 时，这个测试就被"刷满"了——也就是测试已经失去了区分度。2 SWE-bench 是一项衡量真实世界软件工程能力的标准测试：它丢给模型一个真实的开源代码库和一份真实的 bug 报告，要求模型写出能修好这个问题、还得通过项目自带测试的代码改动。短短两年，模型的成绩就从个位数低位一路涨到把这项测试刷满。 CORE-Bench 检验的是模型能不能复现已有的研究，这是它们能开展原创研究的前提。它给 AI 模型一篇已发表论文背后的代码和数据，要求模型把所有东西重跑一遍，确认自己能复现出论文的结果。AI 系统复现结果的成功率，从 2024 年的大约 20%，到十五个月后把这项测试刷满。负责衡量模型完成长时任务能力的那项基准测试由 METR 运营，他们发现，Claude Mythos Preview 能"至少"连续工作 16 小时，已经"逼近 [METR] 在不设计新任务的情况下所能衡量的上限"。公开基准测试能说明这些系统的能力有多强。但它们没法揭示 AI 系统对加速 AI 开发本身究竟产生了多大影响。要看清这一点，我们需要来自 Anthropic 这类 AI 公司内部的直接证据。 ## 来自 Anthropic 内部的证据造一个前沿模型，大体分两类活儿。一类是工程：写代码、搭起基础设施、盯着模型训练。另一类是研究：决定做哪些实验、读懂跑出来的结果、想清楚下一步该试哪些点子。不管在工程还是研究上，呈现出来的画面是一致的。工程方面，你可以把一个没说清楚的问题丢给 Claude，它自己就能琢磨出怎么解；人负责给目标，但已经不必再给方法。研究方面，只要实验定义得足够清楚，Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标——不管是工程还是研究——巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间，差的就是这一段。在 Anthropic，员工资历越深，接到的任务往往越开放、越重要，这很常见。刚来的时候，他们执行别人定好的任务，比如：*"导出按钮坏了，麻烦修一下。"积累了经验之后，别人只给一个目标，方案由他们自己来设计，比如："查一查网络在高负载下为什么会变慢。"到了最资深的层级，他们要决定的是哪些问题压根值不值得做："团队下个季度该造点什么？"*我们可以用 Anthropic 的内部数据，看看 Claude 在应对这几类不同任务上走到了哪一步。 Claude 写了 Anthropic 相当大一部分代码。截至 2026 年 5 月，我们合入 Anthropic 代码库的代码里，超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前，这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里（2021—2024），每名工程师每天合入的代码行数基本没变；到了 2025 年，当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时，这个数字开始往上走。2026 年，当模型开始在更长的任务时长里自主干活，曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度，一名普通工程师每天合入的代码量，是 2024 年的 8 倍。4原因在于，大部分代码是 Claude 写的，工程师负责指挥和审查，而不是自己一行行敲。得提个醒：代码行数是个不完美的衡量标准，它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数，几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic，我们不会按谁写的代码行数多去奖励谁；团队成员之所以产出更多代码，单纯是因为他们在用 AI 系统来写更多代码。代码行数的增长，和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月，我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查，对于那些不管有没有 AI 都会去做的项目，受访者的中位数估计是：用上 Mythos Preview 后，他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此，我们认为这个总体说法是可信的，也和我们其他的观察一致：相当一部分 Anthropic 技术人员，正在以没有 AI 辅助时数倍的速度完成他们的核心工作。我们还看到一些证据：Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作，比如搭建探索性的工具，处理那些拖了很久的清理活儿。举个例子，2026 年 4 月，Claude 交付了 800 多个修复，把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计，换成人来做要花四年；解别人留下的 bug 又慢又磨人，而且人很难一下子把那么多陌生的上下文塞进脑子里。 > 大概一年前，我开始拼命往"Claude 化"上靠。那是一段疯狂的冒险，到现在，我已经差不多 5 个月没自己写过一行代码了。——Anthropic 员工* Claude 写的代码"好"，而且越来越好。所谓"好代码"，有两层意思：一是它能跑通，二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层，证据很清楚。过去一年里，Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率，一直在稳步下降——哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务"，指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点，从 Claude 在不同难度任务上随时间变化的成功率就能看出来，见下图。Claude 写的代码能跑通。怎么看这张图：会话是否成功，由一个 Claude 评判者来判定；如果 Claude Code 智能体（agent）明显完成了用户的任务、过程中无需任何纠正，这次会话就算成功。工作负载的变化会导致成功率出现短期波动。在最开放的那类任务上，Claude 的成功率在 2026 年 5 月达到了 76%，半年内提高了 50 个百分点。举个这个难度档位的例子：一次例行升级，结果让数万个训练任务接连崩溃。一名工程师把 Claude 接进了这场正在发生的事故，给的东西不过是一些文字说明和集群访问权限。Claude 一边处理还在运行的任务，一边一次只改一个环境设置去测试，最终定位到那个触发崩溃的、极其冷僻的单个调试开关，稳定复现了问题，并确认了修复方案。这件事，平常要花两到三天，Claude 用了约两小时就交付了。第二层标准，是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层，人和 AI 之间的差距还在，但正在飞快缩小。Anthropic 内部没有完全的共识，但很多人认为，截至 2025 年底，Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的，而今天大致打平。我们预计，一年之内它就会更好。这已经改变了 Anthropic 自己审代码的方式。如今，提交到我们代码库的改动，在被合入之前，先要经过一个自动化的 Claude 审查者——它专门找 bug、安全漏洞和其他缺陷。借助这个工具，我们做了一次回溯分析，发现：如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查，那么 claude.ai 过往事故背后约三分之一的 bug，本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师，是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。 > 截至 2025 年底，Claude 写的代码比 Anthropic 人类写的略差一些，今天大致打平，我们预计一年之内它会明显更好。给 Claude 一个别人定好的目标，它很擅长跑实验去达成。 Anthropic 每发布一个模型，我们都会跑同一个测试：给 Claude 一段用来训练小型 AI 模型的代码，要求它在保证通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的，所以 Claude 要做的，就是通过重写代码、运行、计时、再重写，去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月，Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月，Claude Mythos Preview 已经能做到约 52 倍。作为参照，一名熟练的人类研究员要达到 4 倍，得花四到八小时。7 在研究流程的这一环——在一个边界清晰的实验里优化各个步骤——Claude 在不到一年的时间里，从"非常有用"变成了"超越人类"。 > 今天大致的格局是这样：人类出想法，而模型能比以前快上一个[数量级]去实现、测试和评估这些想法。 Claude 在自己提出实验这件事上，也越来越强了。 2026 年 4 月，Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体——大致就是问：弱模型能否可靠地监督强模型？——然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限"：下限是那个弱的监督者自己单干能做到多好；上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周，把这中间的差距弥合了约 23%；而那些智能体在累计 800 小时里弥合了 97%，用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方：结果没能干净利落地迁移到生产规模的模型上，而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内，每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色，就是定方向。 > 整个过程里，Claude 几乎没怎么用到我帮忙，前后也就一到两天。我想，如果换成[一个初级同事]在同样的时间里拿着这样的结果回来找我，我大概会有点小小的佩服。未来已经到了。 Claude 在把研究会话引向研究成果这件事上，也越来越强。我们考察了一批真实的 Claude Code 会话（时间在 2026 年 1 月到 3 月之间），里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题，比如搞清楚一次训练运行为什么老是崩溃，或者一个模型为什么在某项基准测试上得分很差。每一个案例里，我们都找到了一个研究员走弯路的时刻：他们追了一个方向，把会话带偏了，最后才又拐回正轨。然后，我们只把会话走偏之前的工作展示给不同的 Claude 模型，问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude，去判断到底是 AI 还是人类提出的下一步更好。8 因为我们是刻意挑那些已知人类选择还有改进空间的时刻（n=129），所以这并不是模型判断和人类判断之间的对等比较。这些时刻给我们的，是一组真实而有难度的情境——正确的下一步并不显而易见，而人类当时的选择，恰好可以当作一把有用的标尺，去衡量模型表现随时间的变化。按这个标准来看，我们在 2025 年 11 月最好的模型（Opus 4.5）有 51% 的时候胜过人类的选择；到了 2026 年 4 月（Mythos Preview），这个比例涨到了 64%。研究日复一日的工作，很大程度上就是一连串这种"下一步怎么走"的决策，所以这是一个有意义的衡量指标，能反映模型最终独立跑一项调查的能力。我们把这个结果看作一个早期信号：AI 系统正在越来越擅长做出那些 AI 研究所依赖的判断。怎么看这张图：那条"实际上限"线，衡量的是一个能看到整场会话（包括它最后如何收场）的模型写出的"理想"答案。 > 就目前而言，人类的比较优势仍然在于看到更大的图景，以及跳出眼前任务的边界去思考。 ## Anthropic 的工作未来会是什么样？种种证据表明，在 AI 研发的每一个环节，人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平，人类就会彻底不再亲手写代码，转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 研发的瓶颈。同样，一旦 Claude 能自己跑实验，问题就转向了"这些实验里哪个值得跑？"。说白了：那些动手的活儿（写代码、跑实验、产出结果）现在几乎不再花掉人的时间，哪怕它依然要消耗算力。目前人类还占优势的领域，是研究品味和判断力——包括判断哪些问题重要、哪些结果可信、什么时候一条路已经走到了死胡同。 > 工作（和生活）原本运转在一种人与人之间小恩小惠的人情互助经济上。"能帮我把这个脚本跑起来吗？"[……]每一次求助都欠下一点小人情，多出一点彼此的牵挂。Claude 更快，不欠任何人情，可这每一次都是一次本可以发生、却落空了的人际协作。 > 在一切都顺的日子里，我忍不住会想，我做什么都没意义，所有事都被自动化了，比我做得更好更快，永远都比我强。可也有那种全盘崩掉的日子，我搞不懂哪里出了错，这才意识到，我已经完全不知道自己到底在干什么了。 ## 万一我们错了呢？针对上面这些证据，一个很自然的反驳是：还握在人类手里的那部分活儿——决定要去攻克哪些问题——才是最要紧的。没有这份判断力，Claude 只是个能干的助手，而不是一个能独立推动 AI 进步的系统。今天的训练方法和架构能不能解锁这种能力，确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻，比如 Transformer 架构，或者混合专家模型（mixture-of-experts），但能改变范式的想法，往往隔好几年才来一次。在这些时刻之间，大多数进步都是渐进的：我们把某个东西放大规模，看它哪里崩了，修好，再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说，天才是 1% 的灵感加 99% 的汗水。但我们看到的是，汗水正在被越来越多地自动化。事情正变得越来越清楚：推动前沿往前走的东西，很大一部分是可以自动化的；大规模的研究进展，主要取决于工具和资源——它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。就算我们假设 Claude 永远练不出好的研究品味，对我们这些证据做一种保守的解读，仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分（个位数比例）属于定方向的工作上，其余的全交给 Claude，那就意味着每一位工程师或研究员，都在驾驭比从前多得多的工作量。我们看到的证据表明，Anthropic 的人既跑得更快，又覆盖了更宽的面。落到实处就是：AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。更不保守的解读则是：Claude 的研究判断力正在改善——这一证据如今虽然还很窄——但它本身就是一个信号，说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力：AI 系统起初做不好，过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹，比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论（theory of mind，推测他人想法的能力）、能解开语言谜题。 ## 几种可能的未来接下来会发生什么，取决于两件事：这个趋势会不会延续下去，以及如果它延续下去，我们选择怎么做。我们至少能设想三种未来情景： 1. 趋势停滞，但今天的 AI 能力已被广泛扩散。本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处——规模带来的回报开始递减，曲线先变直，再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力，也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样，要突破这道瓶颈，就得有一个新想法，比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者，制约 AI 进步的硬约束不在模型本身，而在供应链上：推动前沿往前走、并把它扩散出去，所需要的能源和算力可能比现在拥有的更多。真正的瓶颈，也许是芯片制造的速度、电网扩容的速度、或者互连带宽，而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能，比如算力或电力的供给突然萎缩——无论哪一种，都会拖慢进步，并让各家实验室的前期投入变得更贵。再或者，我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平，我们仍然预期世界上会发生重大变化。Project Glasswing（玻璃翼计划）就是一个早期的征兆：上线头几周，Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞——多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程，其实还处在很早的阶段——在那里，一家 100 人的公司将越来越能干出 1000 人公司的活儿，因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整，但并不认为它很可能发生。每一项我们能测量的能力，包括那些感觉更"软"的能力——比如代码质量、开放式任务上的成功率——到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里，这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种，它们会推进得更快，留给我们准备的空间也要小得多。 1. AI 实验室持续看到复利式的效率收益。在这种情景里，AI 研发被大幅自动化，但人类继续来定研究方向、判断结果。随着时间推移，那些使用 AI 系统的组织会变得高效得多，于是我们可以预期，这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务，但也可能被用到有害的方向上——从对整个人口的威权式监控，到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里，人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见，并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明，我们很可能正走向这种情景。但是，把一个流程里的某一段加速了，往往只是把瓶颈挪到了别处：整体节奏，会被那些还没提速的环节卡住。在计算机领域，这叫阿姆达尔定律（Amdahl's law），同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现：随着我们开始在组织内部推动更多代码流转，人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型，催生出了大量新点子、新计划、新工具、新模拟——多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈，也许本身就是一项会随时间长进的技能，而且它可能会成为任何组织最重要的那项技能。 1. AI 系统自身具备完整的递归自我改进能力，并开始构建它们的后继者。如果能力推进的技术趋势延续下去，并且 AI 系统能发展出那种属于变革性人类智慧的能力，那么 AI 系统设计并打磨自己，就是有可能发生的事。在这个世界里，AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力（或者发现算法训练、推理上各种提效手段的速度）。人类在研发中扮演的角色会大大缩小，很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期，有能力自动化 AI 研发的系统，其技能会迁移到科学的其余领域，让它们开始去变革其他学科。在这种未来里，对齐问题（alignment problem，让 AI 行为符合人类意图）会怎么被解决——或者解不解得了——是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好，于是发现并实现一些我们还没触及的新解法。它们也可能足够明智，在没法解决时主动叫停研发。但反过来，今天的模型身上那些罕见的失准现象，也可能在模型构建后继者的过程中层层累积，变得越来越频繁、却越来越无人能懂，直到我们对它们失去控制。也有可能，我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样，我们没有什么靠谱的直觉，因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导——它的能力彻底盖过人类，又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力，经济会变成什么样，很难预测。就算模型研发变得彻底自动化、彻底递归，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现《Machines of Loving Grace》（慈爱机器，Dario Amodei 的同名文章）中勾勒的许多好处。我们预期，具身智能（也就是机器人技术）可能会很快跟上递归智能，并沿着一条类似的路径走——回报递增，成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西，把救命药的临床试验跑得更有成效，并发展出全新的协调形式。但单单实现了递归改进，并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能，也学不会一款药在几十年的服用中到底有什么效果，没法让选举来得比宪法规定的更早，也没法在一个周末里把陌生人变成多年老友。对大多数人来说，这种未来在体感上的节奏，仍然会由那些瓶颈来设定，哪怕上游的实验室是以算力的速度在运转。这种碰撞——递归智能把自己造得越来越快，撞上人、关系与治理的世界——也是这个未来里我们无法预测的一部分。 ## 我们该怎么办？如果真能有效放慢这项技术的发展、给我们自己留出更多时间来应对它那些深远的影响，我们认为这大概是件好事。但如果放慢只是让那些最不谨慎的玩家在技术上追了上来，结果反倒可能让所有人都更不安全。没有一个全球协调机制，企业和政府就只能在竞争和地缘政治的压力下，被迫去做那些关乎安全的两难抉择。我们认为，让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项，是件好事——这样社会结构和对齐研究（让 AI 行为符合人类意图）才有机会跟上技术的脚步。Anthropic Institute 将开展研究——与许多其他机构合作——并采取行动，帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查：全球其他人是否真的停了或慢了下来，以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在，我们预计自己也会放慢或暂时暂停——前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。一次有分量的放慢或暂停，需要多个资源充足、处在前沿或逼近前沿的实验室——分布在多个国家——同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质，这个军控难题里"可探测性"（一个比可核查性更低的标准）这一环，比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏，它的投入又是通用的，而悄悄违约的诱惑大得惊人——因为在别人暂停时还在继续往前跑的那一方，就能把领先地位收入囊中。一个可信的暂停还得说清楚：什么触发它、什么解除它、由谁来裁定。这些在原则上都未必做不到——这个世界已经为其他复杂技术建起过核查机制（比如《中导条约》（中程导弹力量条约））——可那些机制花了几十年才把基础设施和信任都建起来。我们没有那么长的时间。相比之下，单个实验室单方面暂停可以立刻做到，但成效要小得多：它会改变谁是领跑者，却造不出眼下所缺的那种更广泛的协商过程。接下来几个月，我们会组织一系列对话，让政策制定者、研究者、公民社会和其他 AI 公司一起来回答本文提出的一些问题，尤其是围绕完整的递归自我改进，以及如何为协调与协商创造出更好的选项。我们会把对话的成果公开出来。一起探究这些问题的窗口期就在眼前，而 AI 公司之外的人也应该参与到这场协商中来。本文由 Marina Favaro 和 Jack Clark 共同撰写，Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 与 Jun Shern Chan 收集的数据制作了图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。 ## 脚注 1. METR 的关键指标，衡量的是 AI 系统在一组任务上能保持 50% 可靠度的任务时长；不过把可靠度提到 80%，趋势线看起来也一样。 1. 尤其是当基准测试转向更开放的形式、更难的任务（比如奥林匹克级别的数学）时，基准测试常常在不到 100% 的地方就刷满，原因是题目和答案集里有错——比如表述含糊的题目，以及根本无解的题。 1. Anthropic 的高层曾公开估计，我们的代码有 90% 或更多是 Claude 写的，包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字，衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守：一是我们的归因流程本身有缺口；二是没有归到 Claude 名下的那些代码行里，还包含自动生成的代码和其他同样不是人手写的产物。 1. 这股代码产量的激增，正在挤压所有人共享的基础设施。GitHub——全世界大多数软件都建在它之上——整个 2025 年录得约 10 亿次代码提交；到 2026 年年中，每周就有 2.75 亿次，照这个势头全年约 140 亿次。该公司的首席运营官说，光是为了跟上节奏，他们就在"拼了命地"扩容。 1. 这项调查方法的更多细节，在 Claude Opus 4.7 System Card 的第 2.3.5 节有讨论。 1. 许多受访者可能并没有仔细想过怎么处理问题定义里的各种偏差或微妙之处，而 METR 近期的研究表明，开发者对 AI 带来的生产力提升的估计可能被高估。 1. 提速能有多大，很大程度上取决于起始代码本身还留有多少改进空间，所以这个数字不能被当成真实世界里的训练提速。因此这里要锚定的不是那个绝对倍数。更有参考价值的，是这套实验设置所能做到的同条件对比——既包括跨模型的对比（过去一年里从 ~3 倍到 ~52 倍），也包括跟一位熟练的人类的对比（在同一任务上，四到八小时内约 4 倍）。 1. 为了核查评判偏差，我们在另一组 127 个时刻上跑了同样的测试——这组里人类接下来要走的那一步本身就已经很强（而原来那组里，人类的方向还有改进余地）。在这组里，模型给出的建议被判定更优的比例只有约 20%。 * 本文通篇引用的 Anthropic 员工话语，均来自内部讨论，并已获许可使用。它们反映的是个人截至 2026 年 5 月的看法，而非公司的官方立场。

译Anthropic发文称AI正加速自我改进，可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示，AI可靠完成的任务时长翻倍周期从7个月缩至4个月，SWE-bench、CORE-Bench已被刷满。内部数据：Anthropic代码库超80%由Claude编写，2026年Q2工程师人均代码合并量为2024年的8倍，训练代码优化速度从3倍（Opus 4）升至52倍（Mythos Preview），超越人类研究员。Anthropic划出三种未来：S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进，并担忧对齐问题可能失控，呼吁国际协调监管。

🚨 AI News | TestingCatalog@testingcatalog · 6月6日56

ANTHROPIC 🔥: Claude Cowork limits have been doubled until July 5 for all paid plans. Cowork time 👀

译ANTHROPIC 🔥: Claude Cowork 限额已翻倍，所有付费计划持续到7月5日。 Cowork 时间 👀

Berryxia.AI@berryxia · 6月6日70

卧槽！思路直接被打开了！从此Claude 和 Codex。联姻成功了…

译@lxfater 分享了一种 Vibe Coding 方法：在 Codex 的侧边栏终端输入 Claude，即可同时使用 Claude Code 进行项目规划、Codex 执行具体编码任务。两者结合实现了“鱼和熊掌兼得”，让 Claude Code 的规划能力与 Codex 的执行效率互补，无需切换工具即可完成从设计到编码的完整流程。

X.PIN@thexpin · 6月6日66

http://x.com/i/article/2062833714787397632 # Who Pays for AI? How America and China Are Monetizing AI Differently When ByteDance announced subscription tiers for Doubao (68 yuan, 200 yuan, or 500 yuan per month), the response in China was swift and largely hostile. “I’ll delete the app.” “More expensive than ChatGPT.” The backlash trended on Weibo for days. Stop and think about that for a second. ChatGPT Plus has been charging $20 a month since 2023. Claude Pro costs $20. Google AI Pro costs $20. Nobody in the US wrote think pieces about whether AI chatbots deserve to charge. The question was never really contested. So why does Doubao charging roughly $10 a month feel like a provocation in China while the same price point in America is just... Tuesday? The easy answer is “Chinese users are used to free internet.” That’s true, but it’s also incomplete. The more revealing answer comes down to one distinction, one that cuts through almost all the noise about models, benchmarks, and market share: American AI companies have found a way to monetize through enterprises. Chinese AI companies have been competing through consumers. Those are two completely different statements. One is about where the revenue comes from. The other is about what the competition looks like. And the gap between them explains not just why 68 yuan caused a Weibo storm, but why the entire AI industry on each side of the Pacific looks so structurally different. ## Two Different Scoreboards There’s a framing that gets thrown around a lot: American AI is more “B2B” while Chinese AI is more “B2C.” It sounds intuitive. It’s also wrong, or at least it misses the point. OpenAI has hundreds of millions of monthly active users. ChatGPT is arguably the most successful consumer AI product ever built. That doesn’t sound very B2B. Doubao has 345 million monthly active users in China, a number that any American consumer tech company would kill for. That doesn’t sound very B2C either, if B2C implies actually charging consumers. The real distinction shows up in what each industry chooses to measure. In the US, the coverage that moves markets is about annual recurring revenue, enterprise customer counts, and API revenue growth. Anthropic recently disclosed that approximately 80% of its revenue comes from business and API customers, serving over 300,000 companies. More than 1,000 of those now spend over $1 million annually. When Anthropic’s annualized revenue crossed $30 billion in April 2026, the story wasn’t user growth. It was the speed of enterprise adoption. In China, Bytedance’s Doubao, Kimi, and Alibaba’s Qwen compete on a completely different scoreboard. The metrics that matter are downloads, DAU, and MAU. In early 2026, Chinese media breathlessly covered Doubao crossing 100 million daily active users. Nobody was asking about ARR. Two different scoreboards. Two different industries. ## The Real Reason: It’s Not Just SaaS History The standard explanation for this divergence points to commercial history: the US has a mature enterprise software culture (Microsoft 365, Salesforce, Snowflake), while China’s internet giants built their empires on advertising, e-commerce, and gaming. Not SaaS. That’s true. But it’s background, not root cause. The deeper reason is what each country’s AI products actually do for the people paying for them. American AI products (ChatGPT, Claude, Cursor, Claude Code) have penetrated labor markets. A law firm deploys Claude to accelerate document review. A software team uses Claude Code to ship features faster. A consulting firm runs ChatGPT Enterprise to cut research time. In each case, the value is concrete and quantifiable: hours saved, headcount avoided, output increased. The ROI calculation is straightforward enough that a CFO can sign off on it. American AI companies are monetizing labor. Chinese AI companies are monetizing attention. That distinction is not really about what the products can do. Chinese AI products (ByteDance’s Doubao, Alibaba’s Qwen, Kimi, Tencent’s Yuanbao) are often used for the same tasks as their American counterparts — writing, research, image generation, and answering questions. The difference is who pays and why. In the United States, the users converting into paying customers tend to have a measurable ROI calculation. A lawyer bills more hours. A developer ships code faster. A consultant spends less time on research. The value is tied directly to output — which is what makes a $20 monthly subscription feel like a business expense, and a six-figure enterprise contract defensible in a procurement meeting. American AI companies are not simply selling intelligence; they are selling productivity gains that enterprises can measure and justify. In China, the value is often real but harder to quantify. AI makes daily life more convenient, more efficient, and more enjoyable, but not necessarily in ways that fit neatly into a procurement budget or a subscription calculation. As a result, Chinese AI companies have largely competed for consumer attention first — maximizing reach, engagement, and user scale before figuring out how to monetize them. That is why China’s leading AI companies are increasingly looking beyond subscriptions and toward commerce. The bet is that if users are reluctant to pay directly for intelligence, merchants may pay for transactions generated through it. The Qwen–Taobao integration and the Doubao–Douyin commerce loop are not simply product features. They are attempts to convert attention into transactions — and transactions into revenue. To be fair, this doesn’t mean Chinese AI companies ignore enterprises. Alibaba, Baidu, ByteDance, and Tencent are all investing heavily in enterprise AI. But the details matter. Zhipu (GLM), which went public in Hong Kong in January 2026, derives 85% of its revenue from enterprise clients. Yet much of that business comes from government agencies, state-owned enterprises, and financial institutions purchasing private deployments — a model structurally different from the broad-based commercial demand driving companies like Anthropic. MiniMax tells the opposite story. Roughly 71% of its revenue comes from consumer applications, primarily its AI companion app Talkie and video generator Hailuo. DeepSeek sits somewhere in between. Despite becoming China’s most internationally recognized AI lab, it has barely begun monetizing. Its aggressive API price cuts look more like a land-grab strategy than a mature revenue model. The broader point remains: while Chinese AI companies are pursuing enterprise customers, none has yet demonstrated the kind of large-scale, recurring enterprise demand that now sits at the center of Anthropic’s business. ## Why China Is Betting on Commerce The revenue models that worked for Chinese internet companies (advertising, e-commerce commissions, gaming) don’t map cleanly onto AI chatbots. You can’t put banner ads in a conversation. You can’t run a flash sale in a reasoning engine. So the question becomes: what monetization model does China actually know how to scale? The answer the industry has converged on is commerce. The reason becomes clear when you look at what these companies actually are at their core. ByteDance built its empire on short-video and social commerce through Douyin. Alibaba’s foundation is e-commerce: Taobao, Tmall, and payments through Alipay. Their AI chatbots, Doubao and Qwen respectively, were never going to be standalone products. They’re new entry points into existing transaction ecosystems. Tencent’s Yuanbao is being positioned the same way, as a gateway into WeChat’s social and payment infrastructure. This explains the AI commerce arms race that has defined 2025 and 2026. Doubao integrated with Douyin Commerce and completed a full in-app transaction loop by April 2026. Qwen fully connected with Taobao in May 2026, giving users access to 4 billion products and enabling purchase completion without leaving the app. The revenue model in both cases is CPS (cost per sale), where the platform takes a commission on transactions flowing through the AI interface. The bet is coherent: if you can’t charge users for the intelligence, charge merchants for the transaction. Commerce may be the only monetization model China already knows how to scale. Continue Reading

译字节豆包推出68/200/500元月费订阅引发中国用户抵制，而ChatGPT Plus 20美元/月在美国无人质疑。根本原因在于中美AI变现路径不同：美国AI公司通过企业客户变现劳动力——Anthropic约80%营收来自企业和API，服务超30万家公司，千余家年支出超100万美元，2026年4月年化收入达300亿美元；中国AI公司则在消费者市场争夺注意力，豆包、Kimi、Qwen竞争下载量、DAU和MAU（豆包月活3.45亿、日活超1亿），而非ARR。美国AI直接提升劳动效率，中国AI仍依赖免费模式获客。

AYi@AYi_AInotes · 6月6日63

说个可能要挨骂的判断：随着AI时代的到来，创造财富的游戏规则已经变了，未来五年，稳定高薪会变成最大的陷阱，月薪 5 万但没有任何股权 /IP / 系统的人，抗风险能力可能还不如一个月薪 1 万但拥有一个自动运转 Agent赚钱的个体创业者， 2024年加入Anthropic的人，一年拿50万美元股权，现在可能已经值几千万美元了，其中最多的可能已经摸到2.5亿美元了。按 2024 年 $18.4B 估值到 2026 年 $965B，52.4 倍，数学上看起来没毛病，问题是真到手的时候，这钱大概率连三分之一都到不了， 2024 到 2026 年，Anthropic 从 $61.5B 融到 $183B、$380B、再到 $965B，每融一轮，早期员工手里的比例就被切一刀。实际倍数更接近 15 到 25 倍，而不是 52 倍。而且 pre-IPO 根本卖不掉，IPO 后还有锁定期，再加上联邦资本利得税一刀，那个 $125M就是算给外行看的，但即便是几百万到几千万美元，依然是普通人一辈子够不到的数字了。不过真正让我感兴趣的，不是他们赚了多少钱，而是这件事意味着什么， AI 时代，财富创造的半衰期被大幅缩短了。互联网时代要十年磨一剑的亿万富翁，现在两年就能冒出来，窗口期非常短，但同时财富杠杆极大，这就像你早期入股了一家社区火锅店，占 10%，后来老板疯狂拉投资开连锁，你的股份被稀释到 2%，但门店从 1 家变成了 500 家，你的 2% 比原来的 10% 值钱得多，但绝不是按原比例乘倍数那么简单，因为稀释本身就是信号——市场愿意为未来支付极高溢价，哪怕它还没盈利，对大多数普通人来说，与其羡慕 Anthropic 员工一夜暴富，不如早点看清一个事实：游戏规则已经变了，过去十年，进大厂、拿高薪、攒期权是标准路径，但 AI 正在把所有权的杠杆放大到史无前例的程度。不是所有人都会暴富，但早期 + 正确赛道 + 拥有股权 / IP / 系统」的模式，正在取代稳定高薪 + 按部就班的模式，你不需要去 Anthropic，你可以用 Cursor + Claude + Codex，构建自己的 Agent 产品、内容 IP、垂直工具，这本身就是一种被民主化的指数杠杆，以前造一辆汽车需要一整座工厂，现在一个人用 AI，相当于在自家车库就能攒出一台能跑的引擎，远见从来不稀缺，酒桌上每个人事后回顾都会有当初该押注 AI的感慨，稀缺的是认准之后，肯花两年时间，把自己从卖时间的人浇筑成拥有系统的人，你现在构建的东西，能在未来 1 到 3 年给你非线性回报吗？这个问题，比任何股权 grant 都重要，值得我们每个人思考。

译@rohitdotmittal 指出，2024年拿50万美元/年股权的Anthropic员工现账面值1.25亿美元，但多轮融资稀释（从$61.5B到$965B）后实际倍数仅15-25倍，且pre-IPO难出售、锁定期加税后到手远低于账面。核心判断：AI时代财富半衰期缩短，窗口短但杠杆大。普通人与其羡慕，不如用Cursor+Claude+Codex构建Agent产品、内容IP或垂直工具，从卖时间转为拥有系统。

Ethan Mollick@emollick · 6月6日57

This chart from Anthropic is useful, since Agent Teams and Workflows are both very new and very powerful (and token hungry). On the other hand, maybe it doesn't matter as a lot of the decisions about which approach to use is from the AI itself & it often uses them in combination

译Anthropic的这张图很有用，因为Agent团队和工作流都非常新且强大（而且消耗大量token）。另一方面，也许这并不重要，因为关于使用哪种方法的许多决策来自AI本身，并且它经常组合使用它们。

Rohan Paul@rohanpaul_ai · 6月6日49

"Data showed us that if you're a unicorn ($1B), the odds of you one day becoming a decacorn ($10B) are about 8%. If you're a decacorn, the odds of you becoming a $100B company is around 8% to 13%. But if you're a centacorn ($100B), the odds change significantly - you now have a 31% chance of having had a 10x i.e. to $1 Tn valuation." Thomas Laffont is explaining the massive AI-driven IPO wave coming in this year. OpenAI, Anthropic, and SpaceX each potentially crossing trillion dollar valuation. Thomas Laffont is the co-founder of Coatue Management, a major technology-focused investment firm (hedge fund + venture/private equity) with roughly $70 billion in assets under management. "And if we look at how quickly these companies are creating value, this is a chart that I added at the last minute because the data is so fresh. But you can see that it typically takes multiple years to go from $500 billion to $1 trillion in market cap. Well, something happened very recently in the public market, which is that not only did we have three companies do it in the same year, but we had two companies do it in a matter of weeks." ---- From "All-In Podcast and Coatue Management" YouTube channel, (link in comment)

译Coatue Management联合创始人Thomas Laffont在All-In Podcast中引用数据：独角兽（$10亿）成长为十角兽（$100亿）概率约8%；十角兽到百角兽（$1000亿）概率8%-13%；百角兽有31%概率实现10倍增长至万亿美元。他预测OpenAI、Anthropic和SpaceX今年可能达到万亿估值。Laffont还指出，近期公共市场罕见出现三家公司同年从$5000亿跃升至$1万亿，其中两家仅用数周。

Nathan Lambert@natolambert · 6月6日54

I still stand by this despite the recent Anthropic post. There are still serious bottlenecks in building the model that the agents don’t address (organizational, compute, data access, etc). It’ll take time to push through them and we will see "linear" gains for years to come.

译尽管最近 Anthropic 发了帖子，我仍然坚持这个观点。构建模型仍然存在严重的瓶颈（组织、计算、数据访问等）。突破这些瓶颈需要时间，未来几年我们将看到“线性”的进步。

ginobefun@hongming731 · 6月6日65

http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06｜腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。 ## 导语今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景——从战略逻辑，到工程实现，再到全球竞争格局的实地素描。速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？ ## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场来源：腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨：第一次公开亮相，直指战略核心 6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。核心判断：从「怎么训练」转向「找好问题」对谈的第一个核心判断，是关于 AI 范式转移的时间节点。姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview：495 步 Agent 工作流的背后对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。 Co-Design：模型与产品如何深度协同汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval——以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。为什么这篇值得精读这篇对谈兼具战略高度与技术细节，且两者并非并列关系——战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二：给你的 AI 智能体一台专属电脑来源：LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？ Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。为什么容器不够用：两个真实案例许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。 LangSmith Sandboxes：microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。这个方案的工程特性覆盖了 Agent 执行场景的主要需求： - Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。 - 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。 - 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。 - 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。关联今日主题：精讲一与精讲二的互文这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。 ## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记来源：阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察：打破中美 AI 认知的信息茧房 2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。算力：差距是真实的，但效率弥补了大半访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。组织与文化：年轻、流动、产学一体访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。开源分歧、竞争格局与 AI 安全态度访问团还记录了若干有意思的切面。开源分歧：一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。 AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。为什么这篇值得通读这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览如何写好 Skill：一份终极实战经验手册腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲：智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。千符森林：在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境（附示例）](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。 [Google 发布 Gemma 4 12B：具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露：大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径时间有限时，建议按以下顺序优先阅读三篇：第一优先：科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。第二优先：汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。第三优先：LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。

译姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

Rohan Paul@rohanpaul_ai · 6月6日48

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-just-disclosed-that-claude 🗞️ Anthropic says 80% of its new production code is now authored by Claude 🗞️ New Google paper shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70% 🗞️ Google’s new open source Gemma 4 12B can analyze audio and video while running fully locally on a consumer 16GB GPU 🗞️ Alibaba’s Qwen3.7-Plus supports text, video, and image inputs at a low price of $0.4/$1.6 per 1M tokens, though it remains proprietary. 🗞️ Anthropic’s new chemistry report has a genuinely wild result.

译Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示，通用 LLM 通过规划证明与逐步验证，将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B，可在消费级 16GB GPU 上本地运行，支持音频和视频分析。通义千问发布 Qwen3.7-Plus，支持文本、视频、图像输入，价格 $0.4/$1.6 每百万 token，闭源。Anthropic 新化学报告有惊人结果。