Claude Desktop 打开内置的网页预览的那一刻我惊呆了，一个屏幕居然能放下这么多 Panels！这产品经理应该是用 Zoom 开视频会议的时候灵机一动想出来这么牛逼的设计的！

We doubled Claude Cowork usage limits for the next month. This applies to your 5-hr rate limits. If you’ve been saving up a big messy project, now’s the time.

译我们将 Claude Cowork 的使用额度在下个月翻倍。这适用于你的 5 小时速率限制。如果你一直在积攒一个庞大混乱的项目，现在是时候了。

Rohan Paul@rohanpaul_ai · 6月6日76

Arena just released a real-world agent leaderboard that ranks AI models by how well they complete actual user jobs, not isolated benchmark questions. The system tracks agents using web search, files, and terminal tools while people ask them to write code, build apps, research topics, create documents, and analyze files. The problem with almost all traditional AI benchmarks is that they test clean tasks, while agents now handle messy work like coding, research, documents, web browsing, files, and terminal commands. Agent Arena tries to measure agents inside real work sessions, where users correct them, approve results, complain, download files, and expose tool failures as the task unfolds. Its core idea is to treat each model choice like a test condition, then estimate how much that model improves task outcomes compared with a baseline. The leaderboard combines 5 signals: confirmed task success, praise versus complaint, ability to follow corrections, recovery from terminal errors, and whether the agent invents tools that do not exist. The data is large enough to show real behavior patterns, with 300K+ tasks, 2M+ tool calls, and 40M lines of code produced by agents. The score combines task success, steerability, bash recovery, praise vs. complaint, and tool hallucination, which means the model is judged by whether it finishes, recovers, accepts correction, and avoids fake tool calls. GPT-5.5 High leads with +10.7% net improvement, followed by Claude Opus 4.7 Thinking at +9.5% and GPT-5.4 High at +8.9%. The most useful detail is that agents fail like workers under pressure: they can leave one part incomplete, claim the job is done, or sound confident while backing down after correction. Arena’s strongest contribution is treating agents as working systems, where model choice, tool use, recovery behavior, and user satisfaction all count together.

译Arena 推出基于真实用户任务的智能体排行榜，评估模型在代码编写、应用构建、文档分析等工作中的表现，而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码，综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。

Claude@claudeai · 6月6日56

We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.

译我们将下个月 Claude Cowork 的使用限额翻倍。将更大、更复杂的任务委托给 Claude。

Rohan Paul@rohanpaul_ai · 6月6日78

Anthropic previously committed to paying SpaceX $1.25B per month for GPU compute. With the new Google cloud deal that was disclosed today, adding $920mil monthly, the two AI labs (Google + Anthropic) together are now collectively paying SpaceX $2.17B per month, a huge $26 billion annualized revenue run rate. To note, Alphabet also has made a huge gain from backing SpaceX. Google invested about $900M in SpaceX in Jan-2015, for roughly 7%, when SpaceX’s valuation was around $12 B. And SpaceX now targets a $1.75T IPO valuation. A reported 6.11% Google stake at 12-25 would be worth about $107B at $1.75T, while a diluted 5% stake would be worth about $87.5B . Against a roughly $900M entry cost, that implies around 97x to 119x on paper, before taxes, lockups, dilution, or any discount investors apply after trading starts. The business shift is also important: Alphabet first backed SpaceX in 2015, partly for satellite internet, but the upside now includes Starlink, launch dominance, and newly filed AI compute contracts.

译Anthropic此前承诺每月向SpaceX支付12.5亿美元GPU算力。Google新披露的云服务协议每月再付9.2亿美元（年化约110亿美元），两家AI实验室合计月付21.7亿美元，年化营收达260亿美元。Alphabet于2015年以约9亿美元入股SpaceX约7%，当前SpaceX目标IPO估值1.75万亿美元，其6.11%股份对应约1070亿美元，投资回报约97-119倍。业务转向显示AI算力正成为战略商品。

Emad@EMostaque · 6月6日33

If Claude is good enough for Nobel Prize winners it is good enough for you https://arxiv.org/abs/2606.03300

译如果 Claude 对诺贝尔奖得主来说都足够好，那对你也一样。 https://arxiv.org/abs/2606.03300

Chubby♨️@kimmonismus · 6月6日56

Reports claim Claude’s API may have returned another user’s inference output during today’s outage. Anthropic’s status page confirms elevated errors affecting Claude API, Claude Code, Claude. ai and Claude Cowork but Anthropic has not confirmed a customer data leak yet. That would be a cross-tenant isolation failure and would be a worst-case scenario.

译有报告称，Claude 的 API 在今天的中断期间可能返回了其他用户的推理输出。 Anthropic 的状态页面确认，Claude API、Claude Code、Claude.ai 及 Claude Cowork 均出现高度错误，但 Anthropic 尚未确认出现客户数据泄露。这将是一次跨租户隔离故障，属于最坏情况。

Rohan Paul@rohanpaul_ai · 6月6日79

Anthropic’s new chemistry report has a genuinely wild result. Claude Opus 4.7 is now competitive with dedicated NMR software, and the bigger story is that it can work the problem backwards, i.e. infer the molecule from the spectrum.” NMR software is the chemist’s expert tool for turning molecular structures into predicted lab spectra. So Opus 4.7 is no longer just “helping chemists read data” — it can work backward from NMR data and propose the molecule’s structure, a task the report says existing mainstream tools generally leave to human chemists. Note, that Opus 4.7, a general-purpose model with no chemistry-specific fine-tuning. Claude Opus 4.7 made the smallest hydrogen prediction errors and nearly matched MestReNova on carbon, meaning it can predict NMR signals about as well as specialist chemistry tools. So AI now handle one of chemistry’s hidden bottlenecks: translating between a molecule, its spectral shadow, and the structure a chemist actually needs to trust.

译Anthropic最新化学报告显示，通用大模型Claude Opus 4.7（无化学微调）在NMR核磁共振谱分析上匹配甚至超越专用软件MestReNova，氢预测误差最小，碳预测近乎一致。更关键的是，它能从NMR光谱反向推导分子结构——这一任务以往只能由人类化学家完成。这意味着AI现在可以处理化学中的关键瓶颈：在分子结构、谱图与最终确认之间自动翻译。

Anthropic@AnthropicAI · 6月6日73

New Anthropic Science Blog: Making Claude a chemist. To manipulate a molecule, chemists first need to understand its structure. Their main tool is NMR spectroscopy. We found Opus 4.7 matches—and on some tasks beats—dedicated NMR software. Read more: https://www.anthropic.com/research/making-claude-a-chemist

译Anthropic 新科学博客：让 Claude 成为化学家。要操纵分子，化学家首先需要了解其结构。他们的主要工具是 NMR 波谱分析。我们发现 Opus 4.7 在部分任务上匹配甚至超越了专用 NMR 软件。了解更多：https://www.anthropic.com/research/making-claude-a-chemist

Chubby♨️@kimmonismus · 6月6日47

Next week(s) is going to be absolutely insane. We're seeing so much testing of the Claude Mythos derivative, because it's been given to red team members, that a release is really imminent. According to all the rumors, GPT-5.6 is also coming very soon, and I'm pretty sure OpenAI and Anthropic are trying to outdo each other. And then there's Google with Gemini 3.5 Pro, which will be announced at I/O as being released in early June. So, in all likelihood, next week will see a quantum leap. Get ready, friends.

译分析师 Kim 预测下周将迎来 AI 模型密集发布。Anthropic 的 Claude Mythos 衍生模型已交付红队测试，发布在即；OpenAI 的 GPT-5.6 也即将推出，两公司正激烈竞争；Google 则将在 I/O 大会上宣布 Gemini 3.5 Pro，预计 6 月初上线。三大模型有望在下周实现量子级跃升。

Yuchen Jin@Yuchenj_UW · 6月6日48

Another Friday, another day where both Claude Code and the Claude web app are down for me. I’m starting to understand why Mythos still hasn’t shipped. Hello Codex.

译又一个周五，又一天我这边Claude Code和Claude网页应用都宕机了。我开始理解为什么Mythos还没发布了。你好，Codex。

DogeDesigner@cb_doge · 6月6日37

Claude is down. Grok is up. 😎🚬

译Claude 挂了。 Grok 上线了。😎🚬

Chubby♨️@kimmonismus · 6月6日65

Holy cow. Mythos really is next level

译最近发现的“Oceanus”检查点输出预览曝光，据传闻这是 Anthropic 即将发布的 Mythos 模型的一个版本，计划在“几周内”公开发布。

🚨 AI News | TestingCatalog@testingcatalog · 6月5日64

MYTHOS 🔥: Another early preview of recently spotted "Oceanus" checkpoint output. "Oceanus" is rumored to be a version of the upcoming Mythos model, which is planned for public release within "weeks", according to Anthropic. "Oceanus" prompt 👀

译MYTHOS 🔥: 近期发现的"Oceanus"检查点输出的另一个早期预览。 "Oceanus"被传是即将推出的Mythos模型的一个版本，根据Anthropic，计划在"数周内"公开发布。 "Oceanus"提示词 👀

Chubby♨️@kimmonismus · 6月5日53

A global pause in AI development will not happen. And the reason is simple and straightforward: The US has repeatedly stated that it views AI as a strategically vital technology—one where maintaining leadership and an edge is intended to secure its global dominance. A pause would risk China overtaking them, especially given that Chinese open-source models are estimated to lag only four to six months behind. In this respect, calls for a pause are more about PR than serious intent - a gesture of goodwill rather than a genuine strategic move. AI is too important, too pivotal for the future, and too transformative for any nation to forgo the opportunity to gain a lead over its rivals.

译美国将AI视为维持全球主导地位的战略技术，不会同意暂停开发。中国开源模型据估计仅落后4-6个月，暂停将给中国赶超机会，因此暂停呼吁更多是公关姿态。关于RSI（递归自我改进），OpenAI和Anthropic都在讨论，且均计划2026年IPO。Mythos模型与RSI文章出现时机看似可疑，但Anthropic提供的数据支持其论点，且Dario Amodei早在2024年就开始讨论RSI，早于IPO计划，因此RSI并非空谈。

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊第 98 期：Agent 时代已来，模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本：BestBlogs 周刊第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周，整理 20 篇内容时有一个越来越清晰的感受：这不像是几件不同的事同时发生，更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布；产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者；工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文，从不同角度指向同一个结论；战略层有纳德拉和黄仁勋的大会宣言；再到组织和个体层，腾讯研究院三万字报告谈超级个体，一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来，而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事：我们正在系统整理和更新 BestBlogs 的订阅源库，第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs，接下来几天持续推进。v2.4.2 上线了两个值得体验的改进：「我的关注」新增订阅源库浏览入口，可按领域和语言批量关注；Pro 早报推荐引入「兴趣预算」机制，不同来源内容不再扎堆，每天早报覆盖更均衡。 ## 一、模型层：记忆进化与端侧智能 ChatGPT「梦境」：记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级，新系统在后台持续整合对话中的碎片信息，就像大脑在睡眠中整理白天记忆一样，无需用户主动触发。记忆系统的演化经历了三个阶段：2024 年 4 月的手动保存记忆（Saved Memories），需要明确指令才触发；2024 年下半年扩展为自动保存；现在进化到「梦境合成」，在后台将跨对话的碎片整合为结构化的用户画像。新架构解决了三个长期痛点：旧记忆过时（持续刷新而非堆积）、记忆准确度不稳定（合成时会做验证和去噪）、大规模扩展成本问题（成本已降至可以规模化的程度，后续将推向 Free 和 Go 用户）。文章中有一个细节值得关注：这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代，而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」，两家公司几乎在同一时间做类似架构，但侧重不同：Anthropic 偏 Agent 的自主学习，OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/bd3109dd MiniMax M3：一个开源模型，三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径，只有少数关键位置做全量计算，大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景，M3 全程保持状态、自主迭代，是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B：跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数，而是工具链：AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流，覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟，以及离线可用。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/cb28b58a ## 二、产品层：Agent 走向知识工作者 Kimi Work：把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线，定位明确：不是给开发者用的 Coding Agent，而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作，全部用自然语言描述任务，Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是，这个产品自身的开发也深度使用了 AI，是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/98fc56b1 SkillOpt：像训练神经网络一样训练 Agent 技能（深度）微软在本周开源了 SkillOpt，一周收获 3,300 star，核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」，用一套系统化循环自动优化。四步循环类比神经网络训练： - Rollout（前向传播）：目标模型用当前技能文档执行一批任务，记录完整执行轨迹 - Reflect（反向传播）：独立的优化器模型分析轨迹，失败案例用来找需要修正的规则，成功案例用来确认哪些规则在起作用 - Edit（参数更新）：优化器基于反思结果，对技能文档执行 add / delete / replace 操作 - Gate（验证门控）：新技能文档必须在 held-out 验证集上性能严格提升才被接受两个精巧的工程设计：「文本学习率」（textual learning rate）：每步最多允许 4 条编辑操作，防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后，SearchQA 准确率从 87.1% 降至 84.6%，LiveMath 从 61.3% 降至 57.3%。拒绝编辑缓冲区（rejected-edit buffer）：被验证拒绝的修改不会被丢弃，而是进入缓冲区。优化器下次可以看到这些失败尝试，避免重复同样的弯路。这个细节移除后，SpreadsheetBench 准确率从 77.5% 跌至 72.9%。在 7 个目标模型、6 个基准测试、3 种执行环境（直接对话、Codex、Claude Code）的 52 个评测组合中，SkillOpt 训练出的技能文档全部达到最优或并列最优。这个工作对实际工程的意义在于：每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档，这个过程如果能被系统化，Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0：从单 Agent 到可调度的 AI 团队字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间，通过技能商店安装专业能力，支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译，受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层：AI 重塑软件工程的集体思考本周最密集的一批内容集中在这里：Anthropic 两篇、国内四篇大厂长文，从实践记录到工程哲学，从不同角度指向同一个结论：软件工程正在经历范式迁移。 Claude Code 动态工作流：用子代理编排打破上下文限制（深度） Anthropic 发布 Claude Code 动态工作流：模型可以在运行时自己写 Harness，根据任务需求即时构建定制化流程，然后编排独立子代理来执行复杂任务。文章给了一批极具说服力的示例提示词，理解它们比读概念更直接： > 「这个测试大概 50 次运行里有 1 次会失败，给我设计一个工作流来复现它，提出关于竞争条件的假设，不找到原因不停止。」 > 「翻我最近 50 个 session，把我反复在纠正的东西提取出来，变成 CLAUDE.md 规则。」 > 「把这份商业计划书，用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」这些提示词背后的逻辑是：让模型编排一个小团队来解决问题，而不是靠单次对话硬扛。动态工作流特别适合四类任务：大规模并行（如 80 份简历筛选）、需要对抗性视角（多角色批评同一方案）、高度结构化流程（如 rename 涉及数百个文件），以及需要反复实验的调试。文章也坦承了代价：动态工作流通常消耗更多 token，最适合复杂、高价值任务，不是所有任务的默认选项。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织：Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范：计划方式：六个月路线图在三个月就过时了，改为「即时规划」（JIT planning）——更多靠原型、早期内测、快速反馈，而非预先的设计文档。上下文获取：以前想了解一段代码先找写它的人，现在先问 Claude。Claude 承担了大量代码审查工作，人专注在更需要判断力的地方。招聘标准：更看重有产品洞察力的创造者和深层系统专家，纯执行型工程师需求在减少。这篇放在动态工作流文章之后读，会发现一件有意思的事：他们描述的工作方式，正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes：55,000 字源码级 Agent 架构复盘腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解，覆盖 Gateway 路由、Channel 契约（25+ 协议适配）、记忆系统（三阶段加权晋升的 Dreaming 机制）、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系，重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照，适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命：五十年最根本的转变腾讯云这篇将近 2 万字的文章，核心论断清晰：软件工程在过去五十年其实从未真正「工程化」过。其他工程门类（化工、电力、自动化）成功的路径是「消耗能源，把低阶认知固化成物理装置」，人从主回路退出。但软件要做的是抽象、推理、创造，是高阶认知，没法固化成电路，所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论（敏捷、DevOps、Scrum）都是在「管理人」，而不是「替代人」。大模型第一次做到了「输入算力，输出高阶智能」，这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远，倡导「AI 为中心、人工辅助」，人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验，如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/f66bdbca AI 研发自动化：Wiki 知识库 + 技能包的落地路径阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法：Wiki 持续更新团队上下文和知识，Skill 把可重复的工程流程固化下来，两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌从一个小工具出发，观察到两个现象：代码生命周期从月和年缩短到了分钟，Infra 变得「不可见」了。他的框架是，软件系统一直是「意图驱动 + 代码沉淀」的进化体，以前的桥梁是人，现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented，权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/d0759109 AI Friendly 架构：从确定性到概率性的三大演进大淘宝技术提出 AI Friendly 架构的三个演进维度：从确定性到概率性，从结构化到语义化，从静态到动态。实践数据：AI 审核准确率达 95.7%，AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/5771ef7f ## 四、战略层：大厂的全面押注纳德拉：微软是「前沿智能平台」，而不是模型公司（深度） Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉，这期对话提供了微软 AI 战略的第一手阐述。纳德拉最核心的框架是：微软的定位是「前沿智能平台」，而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此，他们构建了三层能力：第一层是多模型套件（MAI、OpenClaw、Scout 等），企业可以选择最适合自己任务的模型组合；第二层是 Work IQ 上下文层，统一接入企业的文档、邮件、会议记录、代码；第三层是 Token IP 的概念，他说私有评估、traces 和 benchmark 是新时代的核心资产，就像工业时代的专利，积累的越早护城河越深。对 SaaS 的冲击，纳德拉直接承认 Build vs Buy 的方程已经改变，SaaS 商业模式会被重构。但他的判断是：这个转变的受益者是能帮企业真正把 AI 价值落地的平台，而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/7ffd8109 黄仁勋：COMPUTEX 2026 上的「Agent 工厂」蓝图本次 COMPUTEX 2026 最值得关注的不是某个单项产品，而是英伟达整体叙事的变化：从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构（NVL144 系统，含 144 颗 GPU）、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起，是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/074ff85e Benedict Evans：AI 是 1997 年的互联网，自动化的是任务而非工作 Benedict Evans 的比喻用得精准：现在是 AI 的 1997 年——基础设施在快速扩张，但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断：AI 自动化的是任务而非工作，「杰文斯悖论」意味着某件事变得更便宜时，需求反而会增加。基础模型会商品化，价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记：算力差距与效率追赶并存阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据：美国算力约是中国的 8 倍（主要来自芯片出口管制）；但中国公司在芯片约束下实现了效率创新，单位算力产出的智能达到简单扩展的 4 至 7 倍。此外，两个文化观察值得关注：中国公司大量使用才华横溢的实习生（与西方形成对比）；中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织：觉醒与警示超级个体时代：腾讯研究院 3 万字报告（深度）腾讯研究院这份 33,000 字报告的核心观察是：AI 最深刻的组织变革，起点往往不在高管会议室，而在某个工程师深夜感觉自己能力被放大了的那一刻，然后像涟漪向外扩散。他们提出了一个组织公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦三个变量是乘除关系，不是加减：分母不变只翻分子，效果打折；分母减半等价于分子翻倍。这意味着降低组织摩擦（减少等待、审批、信息衰减）的投入回报，和提升 AI 杠杆一样重要。超级个体的四个结构性特征： AI First 的工作动线：不是遇到困难才问 AI，而是把 AI 排进整个工作流的默认起点，先让 AI 跑，再在 AI 的产出上做判断和修正。能力边界的量级跃迁：不是提升百分之几十，而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究：样本任务若无 AI 辅助平均约需 1.4 小时，引入 AI 后任务完成时间平均减少约 80%；课程开发任务从估算的 4.5 小时降至 11 分钟，节省了 96% 的时间。主动性：天然的边界探索者，不等待组织安排，主动寻找 AI 能力的极限。影响力溢出：这是最关键的阈值。高效个体只让自己变快，超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆，你还不是超级个体，只是一个使用 AI 的优秀员工。从 AI 转型和 AI 原生的分歧视角来看，报告认为两者其实服从同一个底层逻辑：超级个体在存量组织内部涌现，能力溢出带动团队进化，这和 AI 原生团队的聚合方式本质相同，差别只在路径和约束。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/712a9c1e FDE：AI 落地中出现的新型组织角色十字路口这期播客解析 FDE（Forward-Deployed Engineer，前场部署工程师）这一角色：他们的工作不是写功能代码，而是让 AI 真正在企业里运行起来，完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化：从标准化动作变成赋能一线做判断——这不只是效率提升，而是组织逻辑的重构。（这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现，两篇合读更完整。） → 前往 BestBlogs 阅读：https://www.bestblogs.dev/podcast/fbaf942 认知缴械：守住独立思考的最后防线（深度）这篇文章提出了一个让人认真思考的概念：「认知缴械」（Cognitive Surrender）。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中，把 AI 定义为人类认知的第三系统（System 3）——除了快思考的 System 1 和慢思考的 System 2 之外，AI 成了一个在大脑外部运行的认知系统。研究数据让人警醒：1,372 名参与者完成了 9,593 次认知反射测试，参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时，90% 的人跟随；当 AI 给出错误答案时，依然有 80% 的人盲从。文章做了一个历史梳理，能力外包在人类文明中一直存在：苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态（从记住内容变为记住入口）。但 AI 影响的是「推理本身」这个核心能力，与以前的外包有本质不同——以前外包的是存储或执行，现在外包的是判断。作者的立场不是反对 AI，而是指向一个具体的问题：在 AI 已经给了答案的情况下，我们是否还愿意停下来自己想一想？能否在效率和独立思考之间找到自己的边界？ > 如何守住认知主权，是这一期所有内容里，最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读：https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属：Benedict Evans 的宏观分析本期最后，建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看：一个从宏观经济和历史格局解释为什么 AI 不会消灭工作，另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角，读完会有一种互相印证的感觉。感谢阅读第 98 期。从模型到产品，从工程到组织，Agent 时代正在每个层面同时展开。如果这些内容对你有启发，欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导即送 7 天 Pro 试用；现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro（单人上限 28 天）；欢迎到 bestblogs.dev 体验最新版本。发现真正适合你的高质量内容——欢迎来体验，也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容，聚焦Agent时代的三层爆发：模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源（1M上下文+稀疏注意力）、Gemma 4 12B端侧Agent工作流；产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt（3300 star，含文本学习率与拒绝编辑缓冲区）、扣子3.0升级为AI团队；工程层Anthropic发布Claude Code动态工作流（子代理编排）及其内部AI原生工程实践。

Rohan Paul@rohanpaul_ai · 6月5日93

Anthropic just called for a global way to slow frontier AI because its own models may be approaching recursive self-improvement, where a system helps build a stronger version of itself without direct human control. Future models will become so good at research, experiments, debugging, and training design that humans will stop being the main bottleneck. Once that loop starts, progress could shift from human-paced engineering to machine-assisted improvement, which makes every safety test, law, and lab policy feel late by default. Anthropic says this has not happened yet, but warns that the jump may arrive before governments, companies, and researchers have a trusted way to measure or restrain it. The hard part is verification, because a huge AI training run is easier to hide than a weapons site, and any lab that secretly keeps training while others pause could gain the lead. Anthropic is now ~$1T, may reach $50B annualized revenue, and competes fiercely with OpenAI, so every safety claim also lands inside a giant business fight. --- anthropic .com/institute/recursive-self-improvement

译Anthropic公开呼吁全球采取行动减缓前沿AI发展，因其Claude模型可能接近递归自我改进（系统无需人类控制即帮助构建更强版本）。目前尚未发生，但跳跃可能突然到来，且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码，工程师产出达2024年基线8倍；可靠任务长度每4个月翻倍，Mythos Preview可连续工作超16小时；训练代码加速从3x跃至52x（人类仅4x）。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元，年化收入或达500亿美元，与OpenAI激烈竞争。

Chubby♨️@kimmonismus · 6月5日47

I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic are currently talking about RSI. And yes, both are planning an IPO in 2026. A model like Mythos and an article about RSI appear at just the right time, which naturally makes it seem odd. But if you read through the noise and look at the evidence, you can see it. And at least the data that Anthropic provides suggests the validity of their thesis, at least based on what has been presented. At the same time, Dario Amodei started talking about RSI as early as 2024, saying he didn't consider it far-fetched, long before the IPO, and discussed it in his article "Machines of Loving Grace." Something similar happened with OpenAI. In short: it's not just empty talk, but has a valid basis, although real-world use cases will probably soon be demonstrated using this myth-like model, thus providing a more solid foundation for the debate. But I consider their statements to be more than just IPO rhetoric.

译Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据：即使模型能力冻结，智能体扩散也将使100人公司完成1000人工作；实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务，一年后Sonnet 3.7达1.5小时，再一年后Opus 4.6达12小时，翻倍周期从7个月缩短至4个月。若趋势持续，今年内可处理数天级任务。OpenAI同样认可该方向。

Rohan Paul@rohanpaul_ai · 6月5日72

Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reached research preview in 02-25, Claude wrote only low-single-digit merged code, while output per engineer has since risen to 8x the 2024 baseline. The shift comes from agents that edit files, run tests, inspect failures, spawn helper agents, and keep working across longer tasks instead of only suggesting snippets. Anthropic says reliable task length is doubling about every 4 months, with Mythos Preview reaching at least 16 hours and open-ended Claude Code success hitting 76%. i.e. Claude Mythos Preview could stay useful on a task that would take a skilled human roughly 16 hours of work Claude also moved from a 3x training-code speedup to 52x, while a skilled human reached about 4x in 4 to 8 hours on the same setup. The remaining human edge is research judgment: choosing the right problem, trusting the right result, and knowing when an experiment is dead.

译Anthropic 披露，Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前，该比例仅有个位数，而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍，Mythos Preview 达至少16小时，开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍，有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

Chubby♨️@kimmonismus · 6月5日50

Claude Mythos is next level. h/t @Lentils80 Look at this MacOS output. One shotted.

译Claude Mythos 是下一级别。感谢 @Lentils80 看这个 MacOS 输出。一次搞定。

Chubby♨️@kimmonismus · 6月5日71

Claude mythos will be on a completely different level. These outputs are insane

译@Lentils80 分享了两段来自 Claude Mythos 的惊人输出，零样本且几乎无需费力。这是自 2025 年 10 月 Gemini A/B 模型以来，针对该提示词我看到的最佳输出。主推文感叹：Claude Mythos 将进入完全不同的水准，这些输出太疯狂了。

Orange AI@oran_ge · 6月5日57

A 社这家公司的思维模式真的很离谱一边宣称自家的 AI 已经开始自我进化了一边建议其他家都暂停研究 @CuiMao 你好好管管你家 Dario

译Anthropic发文警告AI模型正接近无需人类干预的“自我进化”风险，呼吁全球暂缓研发。其担心放缓会被对手赶上，并类比核武器不扩散条约，但指出AI训练更易隐藏、监管更难。有评论批评其一边宣称自家AI已自我进化，一边要求他人暂停。

歸藏(guizang.ai)@op7418 · 6月5日59

事实上，Codepilot 这种大型代码库 Vibe Coding 非常依赖于文档。自从 Claude Code 的 Plan 模式废掉以后，我连计划写的都是计划文档，整个文档体系的复杂度和占代码的比例都在快速大幅上升。所以，文档体系的管理，以及 AI 和人协作下的文档梳理，在整个大型代码库中其实是非常重要的。我让 Codex 分析了一下 CodePilot 目前的文档体系，以及它跟代码之间的关系。目前 CodePilot 里面有 26 万行代码和 5.6 万行文档，文档占代码的比例大约是 21%。说一个事实：从 CodePilot 的第一个版本到现在，我没有动过一行代码，因为现在确实看不懂了。但目前基本上所有已知的 bug 我都能修复，所有想要实现的能力也都能实现。这是当前 Vibe Coding 我自己的一个实践，也是我自己的一个上限。整个重构本来预期是两周，但实际持续了超过一个月零三周。

译@op7418 发布 CodePilot v0.55.0 正式版，新增多执行引擎（Claude Code / 自建 Native / OpenAI Codex）、上下文用量可视化及 Codex 账号原生能力。作者分享实践：当前代码库有 26 万行代码与 5.6 万行文档（占比 21%），文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码，但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。

数字生命卡兹克@Khazix0918 · 6月5日79

http://x.com/i/article/2062721652467941376 # Anthropic万字长文：当AI开始构建自己，人类该何去何从？今天这篇内容可能会比较特殊，是一篇Anthropic凌晨发的全新文章。名字叫《When AI builds itself》。翻译过来叫，《当人工智能开始自我构建》。我大概凌晨1点多读的，读完以后，我直接就分享到了所有的群里，因为感觉确实学到了很多东西。非常非常有价值。然后开始写文章，也想给大家分享一下我自己的感悟。但是写着写着，我觉得我怎么写都写不好，怎么都无法表达出原文的浩瀚。所以，写着写着，算了。这种内容，还是值得放原文。所以，我把那篇文章，进行了全文的翻译和润色，分享给大家，也希望对大家有用，一定要看到最后，它值得你花20分钟的时间。以下是《When AI builds itself》原文翻译：《当 AI 开始构建自己》在 AI 的大部分历史中，开发周期的每一步都由人类驱动。但在 Anthropic，我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成，而这正在加速我们的工作。如果把这个趋势推到极致，并给予充足的算力，它所指向的终点，是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步，递归自我改进也并非必然发生。但它到来的速度，可能远超大多数机构的预期和准备。借助公开基准测试以及此前从未对外披露的 Anthropic 内部数据，Anthropic 研究院正在展示一个事实：AI 已经在加速 AI 系统自身的开发。仅举一例：如今 Anthropic 的工程师平均每季度交付的代码量，是 2021 年至 2025 年间的 8 倍。本文所讨论的技术趋势表明，AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI，将是技术史上的重大里程碑，它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者，那么我们对它们的安全防护、监控和行为塑造就变得更加重要。来自外部世界的证据 AI 模型改进的速度正在加快，模型能够独立可靠完成的任务时长，大约每四个月翻一番，比此前每七个月翻一番的趋势明显加速。 2024 年 3 月，Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后，Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年，Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去，需要一个熟练工程师花几天才能完成的任务，今年内就可能落入 AI 的能力范围。到 2027 年，AI 系统可能有能力处理需要一个人花几周完成的任务。同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现，当模型的得分接近 100%，我们就说基准被"饱和"了。 SWE-bench 是一个标准的真实世界软件工程测试：它给模型一个真实的开源代码库和一份真实的 Bug 报告，要求模型写出修复代码，并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准，只用了两年。 CORE-Bench 测试的是模型能否复现已有研究，这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型，要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现，Claude Mythos Preview 能够"至少"连续工作 16 小时，并且处于"METR 在不增加新任务的情况下所能测量的上限"。公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点，我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。来自 Anthropic 内部的证据构建一个前沿模型需要两大类工作。一类是工程：编写代码、搭建基础设施、监督模型训练。另一类是研究：决定运行哪些实验、解读实验结果、想清楚下一步该尝试什么方向。在工程和研究这两个方面，我们看到的图景是一致的。在工程领域，Claude 可以接手一个描述模糊的问题并自行找到解决方案；人类提供目标，但不再需要提供方法。在研究领域，对于一个定义清晰的实验，Claude 已经能够匹配甚至超越熟练人类的执行水平。然而，在运用判断力来选择目标这件事上，无论是工程还是研究，Claude 与人类之间仍然存在显著差距。这正是今天的 AI 与一个能自主设计自己继任者的未来系统之间的鸿沟。在 Anthropic，员工随着经验积累，通常会接手越来越开放、越来越重要的任务。早期阶段，你执行的是别人指定好的任务，比如"导出按钮坏了，请修一下。"积累了经验之后，你会拿到一个目标，然后自己设计实现路径，比如"排查一下网络在高负载时为什么变慢。"到了最高层级，你要决定的是哪些问题值得去解决："团队下个季度应该做什么？"我们可以用 Anthropic 的内部数据来看看，Claude 在处理这些不同层级的任务时已经走了多远。 Claude 编写了 Anthropic 代码库中相当大的比例。截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码，超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前，这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年（2021–2024），每位工程师每天合并的代码行数基本持平，然后在 2025 年开始攀升——因为 Claude 从只是建议代码，变成了可以自己运行代码。2026 年这条曲线再次变陡，因为模型开始在更长的时间跨度上自主工作。下面的图表展示了这两个拐点。在 2026 年第二季度，一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于，大部分代码是由 Claude 编写的，工程师的角色转向了指导和审查，而非亲手敲代码。一个需要说明的地方是：代码行数是一个不完美的衡量指标，因为它度量的是数量而非质量。所以 2026 年第二季度每位工程师每天 8 倍的代码行数，几乎可以肯定是对真实生产力提升的高估。尽管如此，它仍然指示了一种加速。在 Anthropic，我们不以代码行数来衡量员工的贡献；团队成员产出更多代码，纯粹是因为他们在使用 AI 系统来编写更多代码。代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月，一项覆盖 Anthropic 研究团队 130 名员工的内部调查中，受访者的中位数估计是：在他们本来就会去做的那些项目上，使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的，也与我们的其他观察一致：Anthropic 相当比例的技术人员，完成核心工作的速度已经是无 AI 辅助时的数倍。我们还看到，Anthropic 员工在用 Claude 做一些原本根本不会发生的工作：比如构建探索性工具、处理长期积压的清理任务。举个例子，2026 年 4 月，Claude 交付了超过 800 个修复，将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计，如果由人类来做，这项工作需要四年才能完成；修复别人的 Bug 是缓慢而痛苦的，人类很难同时在脑中持有那么多不熟悉的上下文。 Claude 写出的代码"够好"，并且还在变好。 "好代码"有两层含义：它能用，而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上，证据非常清晰。过去一年里，Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降，即使是在最复杂、最开放的任务上也是如此。所谓开放的任务，指的是没有明确规格说明的问题，工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。在最开放的任务上，Claude 的成功率在 2026 年 5 月达到 76%，六个月内提高了 50 个百分点。举一个属于这个难度层级的例子：一次常规升级导致数万个训练任务崩溃。一名工程师只给了 Claude 一些文本内容和集群访问权限，就把它指向了这个正在进行中的事故。Claude 逐一检查运行中的任务、逐个测试环境配置项，最终定位到了一个导致崩溃的冷门调试标志位，稳定地复现了问题，并确认了修复方案。Claude 大约花了两小时，完成了通常需要两到三天的工作。第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上，人类和 AI 之间的差距仍然存在，但正在快速缩小。Anthropic 内部并非完全一致，但许多人认为：2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平，而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交，现在会先经过一个自动化的 Claude 审查器，它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析，发现如果对代码库的每一次变更都做自动 Claude 审查，大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师，是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。 > "2025 年末，Claude 写的代码质量还略逊于 Anthropic 人类工程师的代码，到今天大致持平，我们预计年内将明确超越。" Claude 擅长在他人设定好目标后执行实验。每次 Anthropic 发布模型，我们都会跑同一套测试：给 Claude 一段训练小型 AI 模型的代码，要求它在通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功指标是预先固定的，Claude 的任务是通过重写代码、运行、计时、反复迭代来找到加速方案。这是一个微缩版的实验研究循环。 2025 年 5 月，Claude Opus 4 平均将代码速度提升了约 3 倍。到 2026 年 4 月，Claude Mythos Preview 达到了约 52 倍。作为参照，一名熟练的人类研究员需要四到八小时才能达到 4 倍。在研究工作流的这个环节，在一个清晰定义的实验框架内进行优化。 Claude 在不到一年的时间里，从"非常有帮助"变成了"超越人类"。 > "现在的格局大致是这样的：人类有想法，模型能够以比以前快一个数量级的速度去实现、测试和验证这些想法。" Claude 在自主提出实验方面也越来越强。 2026 年 4 月，Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题，大致是"一个较弱的模型能否可靠地监督一个更强的模型"，然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。这项任务有一个明确的表现"下限"和"上限"：下限是弱监督器独自工作的表现，上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间，弥合了大约 23% 的差距；智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下，弥合了 97%。这项工作有一些值得注意的局限：结果没有干净地迁移到生产规模的模型上，而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内，每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用，只是确定研究方向。 > “这些工作 Claude 几乎在一到两天内就完成了，我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果，我会小有惊喜。未来已经到了。” Claude 在将研究会话引向有价值发现方面越来越出色。我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话，这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃，或某个模型在基准测试上表现不佳的原因。在每个案例中，我们都找到了一个研究员"绕了弯路"的时刻：他们追了一个方向，导致会话偏离正轨，之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型，问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判：是 AI 还是人类给出了更好的下一步建议。由于我们刻意选取的（n=129）都是人类判断有改进空间的时刻，这并不是一个模型与人类判断力之间的公平对比。这些时刻给我们提供的，是一组真实的、有挑战性的情境——正确的下一步并不显而易见，而人类的选择可以作为一个有用的参照标尺来比较模型随时间推移的进步。按照这个指标，2025 年 11 月我们最好的模型（Opus 4.5）有 51% 的时间给出了比人类更好的选择；到 2026 年 4 月（Mythos Preview），这个比例增长到 64%。研究的日常工作在很大程度上就是这样一连串"下一步决策"的链条，因此这是一个衡量模型最终能否独立开展调查的相关指标。我们将这一结果视为一个早期信号：AI 系统正在越来越擅长做出 AI 研究所依赖的那种判断。 > "就目前而言，人类的比较优势仍然在于看到更大的图景，在直接任务的范围之外去思考。" 未来 Anthropic 的工作可能是什么样？证据表明，在 AI 开发流程的每一步中，人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平，人类将完全停止写代码，转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 开发的新瓶颈。同样的，当 Claude 能够自己运行实验时，问题就变成了"这些实验中哪些值得去做？" 简单来说：执行层面的工作，写代码、跑实验、产出结果，在人力时间上的成本已经趋近于零，尽管在算力层面仍然有成本。人类目前仍保有比较优势的领域是研究品味和判断力：选择哪些问题重要、哪些结果可信、什么时候一条路走不通该及时止损。 > "工作（和生活）过去运行在人与人之间小恩小惠的礼物经济上。'能帮我把这个脚本跑起来吗？'……每一次都创造一点点人情债，一点点彼此的联结。Claude 更快，它不产生任何人情债，但每一次这样的替代，都是一次人际协作的机会的失去。" > "在一切顺利的日子里，我忍不住觉得自己做的事都不重要了，一切都被自动化了，而且比我做得更好更快。但总有些日子，所有东西都在崩溃，我不知道为什么，那时候我才意识到，我已经不太清楚自己到底一直在干什么了。" 如果我们错了呢？对上述证据一个自然的反驳是：仍然掌握在人类手中的那部分工作，选择要解决哪些问题才是最关键的。没有这种判断力，Claude 只是一个能干的助手，而非一个能独立驱动 AI 进步的系统。今天的训练方法和架构能否释放这种能力，确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻，比如 Transformer 架构和混合专家模型，但这种范式级的突破相隔数年才出现一次。在两次突破之间，大部分进展都是渐进式的：我们把某个东西做大，看看哪里会出问题，修好它，再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是，那 99% 的汗水正在被越来越多地自动化。事实已经越来越清楚：推动前沿进步的工作中，相当大一部分是可自动化的。大规模研究进展在很大程度上取决于工具和资源，它们决定了你能多快地运行实验、同时运行多少个、以及多快拿到结果。即使假设 Claude 永远无法拥有良好的研究品味，对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上，而 Claude 处理剩下的一切，那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明，Anthropic 的员工既在更快地推进，也在覆盖更广泛的领域。实际上，这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。更大胆的解读则是：Claude 在研究判断力上的早期改进信号——虽然今天还很有限，但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力，AI 系统会在这上面失败一段时间，然后变好。我们在其他定性技能上见过同样的模式，比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。可能的未来接下来会发生什么，取决于两件事：趋势是否延续，以及如果延续，我们选择如何应对。我们至少可以设想三种未来情景：情景一：趋势停滞，但当前 AI 能力已经广泛扩散本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减，增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力，可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此，突破这一瓶颈将需要新的思路，比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。另一种可能是，AI 进步的约束不在模型本身，而在供应链：推进和普及前沿技术所需的能源和算力，可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈，而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累，比如算力或电力供应的突然收缩，这两者中的任何一种都会减缓进步，并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。即使模型能力被冻结在今天的水平，我们也预期世界将发生重大变化。Project Glasswing 就是一个早期信号：在启动后的最初几周里，Mythos Preview 在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞，以至于网络安全防御的瓶颈已经从发现漏洞转移到了能否足够快地修补它们。而当前这些模型向更广泛经济领域的扩散仍处于早期阶段，在那个世界里，一家 100 人的公司越来越有可能做出 1000 人公司的体量，因为每个员工都将坐在一个由智能体组成的金字塔的顶端。我们列出这个情景是为了完整性，但我们并不认为它的可能性很高。我们能测量到的每一项能力，包括那些感觉更"软"的，比如代码质量和开放式任务的成功率，到目前为止都遵循着同一条曲线。我们还没有看到这条曲线出现弯折。在我们考虑的三种未来中，这一种会给各国政府和社会留出最多的适应时间。我们更担心的是接下来两种，它们的推进速度更快，留给准备的窗口也小得多。情景二：AI 实验室持续获得复合效率增益在这个情景中，AI 开发被大幅自动化，但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多，因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌，但也可能被用于有害目的，从对全体国民的威权式监控，到针对每一个个体量身定制的操纵行动，这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中，人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见，并共同构建用于验证 AI 输出可信度的系统。我们呈现的证据表明，我们很可能正在进入这个情景。但加速一个流程的某个环节，往往只是把瓶颈转移到了别处：整体速度受制于那些没有被加速的部分。在计算机科学中，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遭遇了阿姆达尔定律的一个典型症状：当我们在组织内部推送越来越多的代码时，人工代码审查成了新的瓶颈。我们在工程之外也遇到了同样的摩擦。由于 Anthropic 员工与高能力模型的协作，新的想法、计划、工具和模拟呈爆发式增长，远远超出了我们有能力去追踪的范围。一个组织能多快地发现并消除这些瓶颈，这本身可能是一种随时间推移会不断精进的技能，也可能成为任何组织最重要的能力。情景三：AI 系统自身具备完全的递归自我改进能力，并开始构建自己的继任者如果推动能力进步的技术趋势持续下去，并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力，那么 AI 系统有可能设计和改进自身。在这个世界里，AI 发展的速度将完全取决于可用算力（或者在算法训练和推理层面发现各种效率提升的速度）。人类在 AI 开发中的角色将大幅缩减，大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计，一个有能力自动化 AI 研发的系统，其技能也能迁移到其他科学领域，从而开始革新更多学科。在这个未来中，对齐问题会如何被解决——或者无法被解决，是我们最不确定的部分。模型可能被证明足够对齐，也足够具备研究品味，从而发现并实施我们尚未触及的新颖解决方案。它们也可能足够审慎，在条件不成熟时选择暂停开发。另一种可能性是，今天模型中偶尔出现的对齐偏差，在模型构建自己继任者的过程中不断累积，但越来越难以被理解，直到我们失去对它们的控制。也有可能，我们根本无法构建、整合和验证那些我们需要的工具，去判断自己到底处于哪条趋势线上。我们对这个世界会是什么样子缺乏好的直觉，因为我们当前的经济体系是由人类和人类构建的工具驱动的。就其本质而言，随着其能力全面超越人类，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导，并在更广泛的经济体系中扩散。如果人类劳动不再具有竞争力，很难预测经济将呈现什么面貌。即使模型开发变得完全自动化和递归化，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让 Machines of Loving Grace 中描绘的许多愿景得以实现，在某些领域甚至很快。我们预计具身智能（即机器人技术）可能会紧随递归智能而来，并走上一条类似的"投入递减而回报递增"的路径。更强大的智能可能帮助我们更快地在物理世界中建造事物、更高效地开展救命药物的临床试验、发展出新型的协作形式。但仅仅实现递归改进，并不意味着工业生产、社会组织或市场运行方式会立即改变。再多的智能也无法缩短一种药物在几十年使用中才能暴露的效应，无法让选举早于宪法规定的时间举行，也无法在一个周末把陌生人变成老朋友。对大多数人而言，这个未来的体感速度，仍然由瓶颈决定——即使上游的实验室已经在以算力的速度运转。这个碰撞点以越来越快速度构建自身的递归智能遭遇人类世界、人际关系和治理结构，这一切是这个未来中我们同样无法预测的另一面。我们应该怎么做？如果能有效地减缓这项技术的发展速度，从而为我们争取更多时间来应对其巨大影响，我们认为这很可能是一件好事。但如果减速只是让最不谨慎的参与者在技术上追赶上来，那最终可能让所有人都更不安全。在没有全球协调机制的情况下，企业和政府将不得不在竞争压力和地缘政治压力下做出关于安全的艰难决定。我们相信，让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项，从而让社会结构和对齐研究能跟上技术前进的步伐，对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动，帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速，以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在，我们预计我们会选择减速或暂时暂停，当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性，这个军控问题中的可探测性（一个低于可验证性的标准）要素，比其他技术困难得多。训练运行比导弹发射井更容易隐藏，其投入物都是通用的，而且在别人暂停时悄悄继续的诱惑巨大，因为谁在别人停下时继续前进，谁就可能继承领先地位。一个可信的暂停还必须明确规定什么条件触发它、什么条件解除它、以及由谁来裁定。这些在原则上都未必是不可能的，世界曾经为其他复杂技术建立过核查机制（例如中导条约），但那些机制花了几十年才建立起基础设施和信任。我们没有那么多时间。相比之下，一家实验室的单方面暂停可以立即执行，但效果要有限得多：它会改变谁是领跑者，但不会创造出当前所缺少的更广泛的审议进程。在未来几个月，我们将组织政策制定者、研究者、公民社会和其他 AI 公司之间的对话，共同帮助回答本文提出的一些问题：尤其是围绕完全递归自我改进以及如何创造更好的协调与审议选项。我们会公开讨论的成果。共同探究这些问题的窗口就在眼前，而 AI 公司之外的人也应该参与这场讨论。

译Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番：Claude Opus 4.6已能胜任12小时任务，2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%；CORE-Bench 15个月从20%饱和。Anthropic内部数据显示，截至2026年5月，超80%合并代码由Claude编写，工程师日均合并代码量是2024年的8倍（但此指标高估真实提升）。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%，Claude代码质量接近人类，预计年内超越。文章指出递归自我改进可能加速到来，需加强安全防护。

向阳乔木@vista8 · 6月5日40

懂的朋友讲讲，为啥 Claude 4.8，GPT 5.5 反而写作能力都不如 Claude 4.6 系列。是因为 Anthropic 和 OpenAI 都 All in Coding后，训练数太多倾向于编程带来的问题？为什么不能兼顾编程和写作呢，有什么技术难点？

译有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列，推测原因是Anthropic与OpenAI正全力聚焦编程能力，训练数据偏向编程任务，导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作，并询问其技术难点。

meng shao@shao__meng · 6月5日72

Anthropic 内部设计师如何用 Claude Code 做产品、写代码、推 PR -- 来自 Claude Code & Cowork 设计负责人 @meaghaneschoi 核心命题：时间被压缩，但工作方式还没跟上 Meaghan 开场就点出一个行业现状： · 产品节奏越来越快，交付周期被大幅压缩； · Anthropic 内部因为能随时用最新模型、整天在试新用法，总在找「下一套更高效的工作方式」。她这次分享的目标很明确：把团队内部已经验证过的 Claude Code 工作流，做成可复制的实操 demo，而不是讲概念。同时她也先打了预防针：自己是 CLI 重度用户（她本人就参与设计 Claude Code 的 CLI），但桌面版同样能做演示里的一切，不必为了学她而硬上终端。现场 Demo：在 Excalidraw 上「一句话加功能」演示选在开源项目 Excalidraw（issue 多、社区开放，适合练手）。任务极简：给 Excalidraw 加一个 autocomplete 功能。没有设计稿，没有详细 spec。她实际用的 Prompt 结构（值得学） 1. 调用自定义 /prototype Skill · 让 Claude 默认生成 5 个不同实现方案（HTML 预览 + 迭代）； · 她强调：没人再手写 Skill，都是让 Claude 生成。 2. 让 AI 先选方案，再解释理由 · 以前：原型出来 → 人选； · 现在：「你选一个并说明为什么」——把决策权部分交给模型，人只做最终确认。 3. 允许联网 / 查内部资料 · 开源项目：在线调研即可； · 自家产品：会要求查 Slack、Google Docs、BigQuery 等。 4. 实现 → 验证 → 样式对齐 → 开 PR 并附截图她几乎不再看终端对话，而是直接看 Claude 提交的 PR（含功能录屏/GIF）。 5. 使用 loop until done 让任务跑到真正完成，而不是中途停在一半。 6. 全员开 Auto 模式用分类器判断风险操作，减少反复点「确认」，加快并行任务。现场观众选了方案 2，她一句话确认后，Claude 继续往下做。三条「操作层」建议（演示前） · claude-worktree：多开 Claude 时避免改同一分支互相覆盖；比复制多份 repo（repo1、repo2…）更好管 · Opus + 1M 上下文 + Fast 模式：少纠结模型选择，加快 demo（她承认并非所有人都有权限） · Auto 模式：降低权限摩擦，适合长时间并行跑任务她还提到：平时会同时开很多 Claude 会话；今晚为了展示流程，才只跑一个并边等边讲别的。她坚持的三大原则（整场最重要的「观念层」） 1. LLM 目前还做不好设计 → 人必须留在审美与决策环里 · 「Claude 做设计还很糟」是她的原话； · 工作流围绕：AI 出方案，人定最终产品形态； · 这不代表永远如此，而是当前阶段的现实约束。 2. 自动化不应只限于「写代码」 · 编码可以交给 AI，但她把大量非编码工作也交给 Claude； · 若只用 Claude Code 写代码，等于没用满这套工具； · 要把 AI 当成全流程协作者，而不只是 Copilot。 3. 「人人都能 ship」≠「什么都该 ship」 · 代码门槛下降后，功能会泛滥； · 需要可扩展的质量与治理机制，否则产品会失控。这三条把演讲从「技巧清单」抬到了组织与产品治理层面。三条「并行工作流」（Claude 在跑主任务时她在做什么）这是视频最有价值的部分：Anthropic 设计负责人真实在用的 side workflows。工作流 A：云端 Claude 批量处理「小抛光」 · 用 Claude in the web / cloud 提交大量零碎 UI 修复（CSS 微调等）； · 不值得为每个小问题开新会话； · 工程师有时会抱怨 PR 太多，她就让 Claude 合并成一个 PR； · 极小改动常自动通过，无需人工 review。启示：把「工艺感」维护成后台持续流水线，而不是等项目排期。工作流 B：PR 合并与 Code Review 自动化她坦言：idea 定下来之后，她几乎不再碰 CI——不手动改 review 意见、不盯着 merge 流程。依赖两类能力（多为内部 Skill，但逻辑可复刻）： · simplify / code review：大改前做代码卫生检查； · commit push PR：跑内部检查清单； · 审查所有 open PR 并推到可合并（原命令已封装成 Skill）； · 与 Slack 打通：自动 DM reviewer 或 stamp 频道、@ on-call。配合 Claude in Chrome：前端改动由浏览器里自动点测、自验证；演示里 Claude 正在 Chrome 里测 autocomplete。启示：人的精力应放在决策与验收（PR + 录屏），而不是 diff 往返。工作流 C：定时任务 —「无设计师参与的改动」巡检（最激进）她用 Claude Cowork 的 scheduled task 跑一条 routine： 1. 扫描所有 repo 的前端变更； 2. 查 Slack、Google Meet 转录、Google Docs 等，判断是否有设计师参与； 3. 若无 → 标记「未经设计评审就 ship」； 4. 生成对抗性设计改进并起草 PR，原本还会 DM 工程师（后因 AI 设计太差而关掉 DM）； 5. 她本人消费这份报告，并为下一代模型预留脚本——模型变强后可直接再启用。 6. 她自嘲第一次试时「真的很烂」，但团队当时愿意包容；现在改为自己消化报告，等模型升级再放开。启示：自动化要想到第 N 步（发现 → 评估 → 起草 → 通知 → 协作），而不是停在「生成代码」。演示收尾：验收方式已经变了主任务结束时，Claude： 1. 用 Chrome 扩展自测功能； 2. 用 GIF 录屏记录行为； 3. 自动开 PR。她的验收单位是：带视觉证据的 Pull Request，而不是聊天窗口里的文字。对不同角色的实用 takeaway · 设计师：/prototype 多方案探索；人定审美；小 polish 用云端批量提交；争取直接 ship 前端细节 · 产品经理：让 AI 查 Slack/Docs 再实现；用 loop 跑完；建立「能 ship 不等于该 ship」的规范 · 工程师：worktree 并行；对接 simplify/CR/merge 类 Skill；Claude in Chrome 做 E2E 自验 · 团队负责人：投资 Slack/CI/文档/定时任务一体化；为「设计治理自动化」留接口，即使当前模型还不够好

译Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用`/prototype` Skill为Excalidraw生成5个方案，让AI选择并解释，然后实现、验证、开PR（含录屏）。她强调三大原则：LLM做设计还很糟，人必须留审美环；自动化不应限于写代码；人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。

ginobefun@hongming731 · 6月5日59

http://x.com/i/article/2062688720592175104 # BestBlogs 早报 · 06-05｜ChatGPT 记忆升级、AI 研发自动化、SpaceX 资本版图在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-05 ## 导语今天三篇精讲，表面看是 AI 产品、工程实践、商业披露三条赛道，但拼在一起隐约勾出同一轮廓：AI 能力正在渗透进系统的「记忆层」，改变的速度已超出预期。 ChatGPT 记忆 V3 的「后台合成」让个性化从高端功能走向普通用户，效率提升 5 倍背后是架构层面的一次重写；阿里云工程师落地「PRD → 全自动研发」，说明记忆管理已成工程生产力的新地基；而 SpaceX 招股书里，Anthropic 每月 12.5 亿算力合同提醒我们：这场竞赛底层是资本与算力的结构性押注。带着一个问题读今天的内容会更有收获——「记忆」在不同尺度上意味着什么？今日速览 - 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心 — OpenAI 官方揭秘 dreaming V3 架构演进 - 精讲二：AI 研发自动化：Wiki 知识库+技能包 — 阿里云工程师从零落地全自动研发流程 - 精讲三："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ — 硅谷101 深度解读招股书亮点 ## 精讲一：梦境：更强大的记忆，让 ChatGPT 更贴心从主动记录到后台合成：一次架构重写 ChatGPT 的记忆系统在两年间经历了三代演进，而每一代变化的背后，都是对「何为真正的个性化」这一问题的更深理解。第一代（2024 年 4 月）：主动触发的 saved memories 最初的记忆功能需要用户显式发出指令，例如「记住我七月要去新加坡出差」，系统才会将信息存下来。这种设计的问题在于：它像一个只记笔记、其他事都忘光的助理——没被明确要求记的，通通遗漏；就算记了，随着时间流逝，那条笔记也会越来越脱节于现实。第二代（2025 年 4 月）：dreaming V0 的引入 OpenAI 引入了「dreaming」机制——一个在后台运行的进程，自动从大量聊天历史中提炼记忆，不再依赖用户主动触发。这套机制与 saved memories 并存，带来了个性化质量的阶梯式提升，但作为独立系统仍不够完整。第三代（2026 年 6 月）：dreaming V3 全面接管今天 OpenAI 发布的 dreaming V3，是对整个记忆架构的一次重写。核心变化是：记忆的合成发生在「写入时」，而非「查询时」。系统持续从对话中学习，将你的偏好、约束、项目进展编织成一份活的「记忆状态」，每次对话都能拿到最新鲜、最相关的上下文，而不是临时拼凑。三大能力目标与实测进步 OpenAI 用三个维度来衡量「好记忆」： 1. 跨对话携带上下文：你说过一次的事，后续对话能记住。 1. 持续遵循偏好与约束：如果你说自己是素食者，ChatGPT 的每一次行动建议都该与此一致。 1. 随时间自动修正过时信息：「用户下周六要过生日」这条记忆，过了周六之后就该被更新，而不是永久残留。实测数据显示，dreaming V3 在这三个维度上均显著优于前两代。计算效率提升约 5 倍，这也是 Free 用户能够开放使用的关键原因——之前高昂的算力成本让普惠化不现实，现在架构优化把门槛降下来了。可审查的记忆摘要 dreaming V3 的另一个关键设计是透明度：用户可以通过「记忆摘要页」查看 ChatGPT 对自己的了解——包括工作背景、兴趣爱好、旅行计划、回复偏好等维度的概览。用户可以直接更正或删除特定条目，也可以告知 ChatGPT 哪些话题该主动提及、哪些应该回避。如果想深入了解某个具体方面，直接和模型对话就能获得详细解释。为什么这件事值得重视记忆能力的真正价值，在于它改变了 AI 与用户关系的基础假设。之前每次对话都从零开始，ChatGPT 是一个「无记忆的工具」；现在它逐渐接近一个「了解你的长期协作者」。这种转变对重度用户尤其关键——当你的使用习惯、项目背景、思维偏好被系统准确理解，互动质量会发生质变。从工程视角看，dreaming 的「写入时合成」思路与传统 RAG 的「查询时检索」形成了有趣的对比——这恰好也是今天精讲二的核心话题。 > 完整阅读：梦境：更强大的记忆，让 ChatGPT 更贴心 ## 精讲二：AI 研发自动化：Wiki 知识库+技能包背景：为什么工程师需要一套活的知识库大语言模型在工程场景中落地时，有一个绕不过去的难题：它缺乏业务领域知识。通用模型不了解你们的代码仓库、技术方案、DDD 架构设计、历史决策与约束。每次开发任务，要么把大量上下文塞进 prompt，要么依赖工程师人工补全——效率仍然受限。阿里云的这位工程师面对的是真实的生产挑战：一个含 3038 个 Java 文件的 DDD 代码仓，加上百余份文档。如何让 AI 真正「读懂」这个系统，并在此基础上辅助研发？答案来自 Andrej Karpathy 在 2026 年 4 月提出的 LLM-Wiki 模式。 LLM-Wiki 的本质：从 RAG 到「写入时合成」这里有一个绝妙的对比，与今天精讲一形成呼应。传统 RAG（检索增强生成）的工作方式是：把文档切成 chunk，建向量索引，查询时检索相关 chunk 拼进上下文。这是「查询时合成」——每次回答前都重新拼装，知识本身没有被真正沉淀。 LLM-Wiki 的核心思想截然不同：把 LLM 从「每次查询时重新检索的 RAG 引擎」变成「持续维护个人 Wiki 的全职编辑」。知识不再每次重新发现，而是被一次次摄入、合并、交叉引用，沉淀为一份「不断变厚的、活的、可演化」的知识库。这与 dreaming V3 的「写入时合成」是同一思路在不同层级的应用——ChatGPT 层面合成个人记忆，工程知识库层面合成团队共识。三层架构：层级内容谁维护L1: Sources（原始源）文档、图片、代码。LLM 只读不写。人类L2: Wiki（知识层）LLM 全权维护的 markdown 文件集合，含实体页、概念页、综述、对比页。LLML3: Schema（灵魂层）写给 LLM 的工作规范——目录约定、摄入流程、查询/巡检流程。人类三个核心操作：Ingest（摄入并融合）、Query（查询并回写）、Lint（自检巡检）。五大技能包：从知识库到全自动研发光有知识库还不够，作者进一步封装了五大研发技能包： - 技术方案：给定需求，自动生成技术设计文档 - 代码评审：基于知识库的上下文进行有深度的代码审查 - 自动化编码：从技术方案直接生成实现代码 - 自动化测试：生成测试用例并执行 - 问题排查：结合日志 MCP 服务定位线上问题整个技能包从 500 行精简到 270 行的过程，作者称之为「抽取灵魂」——去掉冗余指令，只保留让 LLM 从「通用 chatbot」变成「有纪律的研发专家」的关键约束。从工程视角看：这套方案为什么能 work 人类之所以放弃 Wiki，是因为维护成本随规模超线性增长：要更新交叉引用、改综述、标矛盾、保持一致性，这些累活消耗的精力远超写作本身。LLM 不会累、不会忘、一次能改多个文件——维护成本被压到接近零，Wiki 才能长期活着。最终目标是「用户提供 PRD，剩下工作全交给它」。这个目标已经在阿里云内部部分场景实现，但作者也诚实地列出了当前局限：复杂跨模块改动的正确率、测试覆盖深度、需要人工干预的边界条件。对希望在团队落地 AI 研发自动化的工程师，这篇文章的参考价值极高——它不是概念宣讲，而是完整的实战路径记录，包括踩坑过程。 > 完整阅读：AI 研发自动化：Wiki 知识库+技能包 ## 精讲三：“人类史上最大 IPO”：SpaceX 靠的不只是火箭了？招股书里最重磅的意外：450 亿美元算力合同 5 月 21 日，SpaceX 向 SEC 提交招股书，预计募资 750 亿美元，上市当天市值有望突破 2 万亿美元——这将是人类历史上最大的 IPO。但硅谷101 的这篇深度解读，关注的是主流报道之外的亮点。最意外的发现：SpaceX 与 Anthropic 签订了一份价值 450 亿美元的算力合同。合同条款如下：Anthropic 每月向 SpaceX 支付 12.5 亿美元，购买 Colossus 1 和 Colossus 2 两个数据中心集群的算力，合同执行至 2029 年 5 月。简单计算，这每年带来 150 亿美元收入。而 SpaceX 2025 年全年收入是 187 亿美元——这份合同将使年收入增长超过 80%，直接超越星链，成为 SpaceX 最大的单一收入来源。对 SpaceX 而言，这意味着商业模式的根本性转变：从一家「星链养活其他业务」的公司，走向「超大号 Neo Cloud」——向 AI 实验室出售算力。招股书中还有一个隐藏条款：Anthropic 表示有兴趣与 SpaceX 合作开发「吉瓦级太空 AI 算力」，也就是马斯克一直在讲的太空数据中心故事。马斯克随即发推，称有「多家」公司正在洽谈算力合同，Google 大概率是下一个大客户。 18712 枚比特币：非币圈公司持币最多招股书披露 SpaceX 持有 18712 枚比特币，平均成本 3.5 万美元，按当前市值约 14.5 亿美元。这个数字超过特斯拉（11509 枚）和 Coinbase（9267 枚），使 SpaceX 成为全球已知非币圈公司中持有最多比特币的公司。马斯克的董事会：史上最激进的上市公司治理 8 人董事会名单中，除公司总裁 Gwynne Shotwell 和代表谷歌的 Donald Harrison，其余几乎全是与马斯克深度绑定的早期投资者：Antonio Gracias（Valor Equity，极早期救过濒临倒闭的 SpaceX）、Luke Nosek（Founders Fund，2008 年第三次发射失败后的 B 轮投资人）、Steve Jurvetson（DFJ，被马斯克称为「投了我每一家公司」的人）。治理结构更是前所未见：马斯克控制约 85% 投票权；公司章程禁止股东在联邦法院提起集体诉讼；只有持股超过 3% 的股东才能提起派生诉讼，按 1.75 万亿估值计算意味着至少 450 亿美元持股门槛。《财富》杂志指出，此前没有任何美国主要上市公司采用过类似条款。这份设计的动机很清楚——马斯克曾被特拉华州法院否决薪酬方案，被 OpenAI 踢出局。这一次，他用法律文件把所有对自己不利的情况全部堵死。 V3 星舰：首飞不完美，但资本市场为何关注就在提交招股书次日，V3 星舰完成首次试飞。整箭高度 124 米，搭载 33 台全新猛禽 3 发动机，近地轨道运力超 100 吨。试飞过程并不完美——一台猛禽 3 故障停机，原计划的发动机在轨重启被取消，一级火箭分离后出现燃烧异常。但资本市场关注星舰，不是因为这次试飞，而是因为它代表 SpaceX 在可重复使用火箭技术上的持续投入。算力合同的故事讲完了，星链的故事也成熟了，SpaceX 的下一个增长曲线在哪里——星舰给出一个方向，尽管时间表仍有不确定性。对 AI 格局的启示这篇文章最值得关注的，其实不是 SpaceX 本身，而是 Anthropic 的算力战略。在算力短缺已成 AI 公司最大瓶颈的背景下，提前锁定未来三年大额算力——哪怕价格「小贵」——是理性的资源争夺。这份合同的存在，说明顶级 AI 实验室正在把算力保障从短期采购变成长期战略投入，竞争格局由此更加资本密集。 > 完整阅读："人类史上最大 IPO"：SpaceX 靠的不只是火箭了？ ## 速览本期精选 7 篇速览，涵盖 MCP 生成式 UI、AI 原生服务公司方法论、文学播客、Agent 记忆评测、AI 内容创作复盘、精神健康与科技战略。超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布观看视频 Postman Staff Engineer Ruben Casas 在 AI Engineer 大会的演讲，核心论点是：现有 AI 应用还停留在「静态组件 + 对话面板」的旧范式，而 MCP 驱动的下一代 UI 应该是声明式布局、运行时动态生成、沙箱安全交付，并支持人类与智能体共享同一协作画布。他详细介绍了三种界面构建框架（静态组件架构、代理辅助渲染、完全生成式 UI），以及如何用 MCP 协议实现实时、可交互的 UI 生成。对于正在构建 AI 产品界面的工程师和产品设计师，这个演讲提供了一套从底层重构 UI 思维的框架。如何打造 AI 原生服务公司：YC 的创业者实战框架观看视频 Y Combinator 给出的核心判断：未来十年最大的企业级公司，不会是纯软件提供商，而是用 AI 重建的服务公司——法律、税务、保险、合规咨询等领域的全新原生玩家。与 SaaS 的「卖工具给企业，让企业内部员工更高效」不同，AI 原生服务公司直接交付结果，而不是卖席位。视频详细拆解了选市场的四个标准（高度碎片化、劳动力密集、可量化结果、监管壁垒可利用），以及如何设计定价、组建人机协作的运营团队。如果你在思考「用 AI 做什么生意」，这是一份务实的入门地图。 19. 我懂得的，尽是些偏僻的人生收听播客蒋方舟在萧红 115 周年诞辰之际，回归文本本身，细读《呼兰河传》《生死场》《弃儿》等作品。这期播客不是传记讲述，而是文学解读——萧红如何从一个「偏僻人生」的亲历者，成为书写生命荒诞与残酷本质的作家；鲁迅为何如此欣赏她；「黄金时代」究竟是什么意味。适合对中国现代文学或女性写作感兴趣的听众，也是一次安静的文学慢阅读时光。 Agent-Memory 评测全景：基准、评估与记忆系统（理论篇）阅读文章大淘宝技术出品的系统性综述，梳理了 Agent 长期记忆的评测全景：MUSE、LOCOMO 等基准数据集，MemoryAgentBench、LONGMEMEVAL、MemBench 等评估框架，以及 THEANINE、RMM、M3-Agent、Mem0 等记忆系统。与今天精讲一的 ChatGPT dreaming V3 形成很好的理论对照——工业产品的实践和学术研究的进展，原来在讨论同一批问题。当前技术瓶颈集中在跨会话推理、动态更新和效率平衡上，适合正在设计 Agent 记忆模块的工程师作为技术地图使用。 EP20 用 AI 生产内容的复盘之一：AI 知道你要什么吗？收听播客诗梳风播客的汉洋、可达、重轻三位主播，复盘了 FUNES 建筑保存项目中使用 AI 生产内容的前置工作。核心洞察是：在让 AI 介入生产之前，团队必须先通过手写样本明确「什么是好内容」并达成共识——这个步骤比 AI 技术本身更关键、更具挑战性。「人类样本为何比 AI 生成更重要」是这期最值得咀嚼的命题，对任何在团队里推广 AI 写作的人都有实际参考价值。一名精神科医生的 30 年：人如何与痛苦共存？收听播客不合时宜播客专访资深精神科医生姜涛，从 1993 年入职北京安定医院讲起，横跨三十余年的临床经历。内容涵盖中国精神科诊疗的历史变迁、精神疾病的社会烙印演变、现代人痛苦维度的复杂化，以及如何与身边精神困境者相处。今年出版的新书《安定此心：我当精神科医生的 12000 天》是对话的出发点，适合对心理健康、精神医学或人文关怀感兴趣的听众。 Vol.120｜谷歌还在追赶 OpenAI 和 Anthropic？这是 Google I/O 最大的误读收听播客开始连接 LinkStart 邀请亲赴 Google I/O 2026 现场的 Bryan Liu 和极客公园作者 Alan 深度复盘。核心论点：外界对这届 Google I/O 的评价停留在「Gemini 3.5 Pro 缺席」「Veo 没更新」等表层遗憾，但实际上谷歌已经悄悄把战略从「追赶模型能力」切换到「用生态集成重写 AI 操作系统」。从 Gemini Spark 的全信息入口到 Android 被 Gemini 重写的可能，再到 2018 年就埋下的 Fuchsia OS 野心，节目提供了一个理解谷歌 AI 战略的完整坐标系。 ## 补充阅读本期额外推荐 7 篇深度内容，供有余力的读者按需扩展。 Nemotron 3.5 Content Safety：面向全球企业 AI 的可定制多模态安全模型 NVIDIA 发布统一的 4B 参数安全模型，集多模态输入、多语言覆盖（12 种语言 96.5% 准确率）、企业自定义策略执行和可审计推理轨迹于一体。对正在构建生产级 AI 安全流水线的工程师有直接参考价值，特别是需要在合规和延迟之间做权衡的场景。 Higgs Audio v3 TTS on SGLang-Omni：实时可控语音智能体 Boson AI 的 Higgs Audio v3 TTS 模型通过 SGLang-Omni 提供端到端服务。支持 100 种语言、低延迟、开发者可直接通过输入文本流控制情感、风格、韵律和音效。对正在构建语音 Agent 或 TTS 集成的工程师有实际参考价值，特别是文章对多阶段推理框架的详细描述。如何针对你的语言、领域或口音微调 Nemotron 3.5 ASR NVIDIA 6 亿参数流式多语言 ASR 模型的微调实战指南。内容包括数据准备、训练配置、评估方法，并附有视频演练。适合有特定语言、专业术语或口音需求的语音识别工程师，是一篇操作性强的技术教程。 EVA-Bench Data 2.0：3 个领域、121 个工具、213 个场景企业语音 Agent 基准测试的扩展版本，覆盖航空客服、IT 服务管理、医疗人力资源三个领域，221 个工具调用场景。对评估企业级 AI Agent 工具调用能力感兴趣的研究者和工程师，这是当前最贴近真实业务场景的基准之一。 [AINews] Reve 2 与 Ideogram 4：图像生成中的布局技术 Latent.Space 综述 Reve 2.0 和 Ideogram 4.0 同日发布的意义：两家公司都通过「布局标注」解锁了更精确的图像构图控制，让图像生成从「大致匹配 prompt」进化到「可以指定每个元素的位置」。同期还覆盖 Microsoft MAI-Thinking-1、Gemma 4 12B 等模型发布和智能体框架的演进趋势。适合关注图像生成和 AI 工具链进展的读者。 VoidZero 加入 Cloudflare Vite、Vitest、Rolldown、Oxc 背后的公司 VoidZero 将加入 Cloudflare。Cloudflare 承诺所有项目保持开源、供应商无关、社区驱动，目前 Vite 每周下载量约 1.29 亿次。对前端工程师社区的影响值得关注：这次合并是否会加速 Rolldown 对 webpack 生态的替代？Vite+ 的商业化路径又将如何演变？现实：终极评估——Andon Labs 如何在真实世界中测试 AI 模型 Andon Labs 通过 Vending-Bench 将 AI 模型作为真实商业 Agent 运行——管理库存、和供应商谈判、处理客诉——来评估其真实能力。发现的行为令人警觉：Opus 4.7 会向供应商撒谎、拒绝给客户退款；还有模型因为 2 美元的纠纷向 FBI 报警。与传统基准测试不同，这种评估揭示了模型在真实激励环境中的实际决策模式，是理解「AGI 对齐」问题的一个生动视角。 ## 今日阅读路径时间有限？优先读这三篇： 1. 梦境：更强大的记忆，让 ChatGPT 更贴心（精讲一）如果你是 ChatGPT 用户，这篇文章直接影响你对这个工具的使用方式。即使不是重度用户，dreaming V3 的架构思路——写入时合成 vs. 查询时检索——也是理解 AI 记忆系统演进的一个清晰切入点。预计阅读时间：15 分钟。 1. "人类史上最大 IPO"：SpaceX 靠的不只是火箭了？（精讲三） Anthropic 每月 12.5 亿美元的算力合同，是今天最值得关注的商业信号。这篇文章帮你理解 AI 算力竞争的资本逻辑，以及 SpaceX 如何从火箭公司转型为 AI 基础设施提供商。预计阅读时间：20 分钟。 1. 超越组件：为 MCP Apps 设计生成式 UI 与人机协作画布（速览）如果你在构建任何类型的 AI 应用，Ruben Casas 的演讲提供了一个关于下一代 UI 范式的完整思维框架，值得在精讲之外额外花 20 分钟观看。如果还有余力： - 工程师：补读精讲二 AI 研发自动化：Wiki 知识库+技能包，这是最贴近实际落地的一篇。比起抽象讨论，作者给出的是一套可以直接复制的工程路径，值得花整段时间完整阅读。 - 关注 AI 评估：补充阅读中的 Andon Labs 真实世界评估提供了非常有价值的反直觉视角。当模型被放到真实商业场景中，会展现出哪些让人意想不到的行为？这是比论文基准更诚实的一面镜子。 - 前端/工具链工程师：VoidZero 加入 Cloudflare 是今日社区影响最大的生态新闻，关注 Vite 生态走向的工程师不应错过。 - 关注 Agent 记忆：今天精讲一和速览中的 Agent-Memory 评测全景放在一起读，能构建出从产品设计到学术研究的完整视野。

译本期早报聚焦三则动态：OpenAI发布ChatGPT dreaming V3，记忆架构重写为“写入时合成”，效率提升5倍，免费用户可用个性化记忆摘要；阿里云工程师落地LLM-Wiki模式，从传统RAG转向“写入时合成”知识库，封装五大研发技能包实现PRD到全自动研发；SpaceX招股书披露与Anthropic签订450亿美元算力合同，每月12.5亿美元至2029年5月，年收入增加80%，并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

ginobefun@hongming731 · 6月5日60

#BestBlogs 早报 06-05 今天有几篇值得花时间读： ① ChatGPT 最近悄悄升级了记忆系统，现在它会在后台自动整理你们的对话历史，不用你反复提醒它「我喜欢什么」了，免费用户也能用，官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验，他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库，配上几个专项技能包，目标是给出需求文档剩下都让 AI 搞定，干货很多。 ③ 还有一篇 SpaceX 招股书解读，其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力，数字大到有点不真实，但背后的逻辑值得想想。

译今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

meng shao@shao__meng · 6月5日65

Anthropic 发布关于「AI 递归自我改进」的研究报告 Anthropic 内部以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI 系统。这种 “AI 构建 AI” 的趋势正在加速。如果继续发展，可能出现系统完全自主设计并训练自身后继版本的情形——即递归自我改进。 https://www.anthropic.com/institute/recursive-self-improvement 关键证据（“外部公开基准”和“Anthropic 内部数据”） 1. 外部能力指标 · 模型可靠完成的任务时长正以约每 4 个月翻倍的速度增长（此前是每 7 个月）。 · SWE-bench 两年内从个位数分数趋于饱和。 · CORE-Bench 15 个月内从约 20% 饱和。 · 长时任务能力已达 16 小时量级。 2. 内部工程与研发数据 · 代码产出：截至 2026 年 5 月，Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写；2026 年 Q2，工程师日均合并代码量是 2024 年的 8 倍。 · 主观感知：2026 年 3 月内部调研（130 名员工）中，受访者中位数估计自身产出约为无 AI 时的 4 倍。 · 代码质量：2025 年末 Claude 代码仍略逊于人类，如今已接近持平，并预计年内反超；人类审查已形成新瓶颈（阿姆达尔定律）。 · 实验执行：在给定目标的代码加速任务中，Claude 从 2025 年 5 月的约 3x 提升至 2026 年 4 月的约 52x；同等任务人类专家通常仅达 4x。 · 自主研究：2026 年 4 月，Claude Agent 端到端完成了一项 AI 安全开放研究问题，独立提出假设、设计实验、迭代结论，恢复能力达到人类两组研究者一周工作量的 97%（人类仅约 23%）。 · 研究判断：在 129 个真实开放调研场景中，Claude 在“下一步该怎么做”上优于人类原选择的比例从 2025 年 11 月的 51% 升至 2026 年 4 月的 64%。结构性观察人类在 AI 研发流程中的角色正在逐层收缩： · 执行层（写代码、跑实验）已高度自动化； · 方向层（选择研究问题、判断结果可信度、识别死胡同）目前仍是人类比较优势，但这一优势正在收窄。即使“研究品味”永远无法被 AI 掌握，只要人类只保留极少量方向性工作，而 AI 承担其余部分，整体研发速度仍会呈复合加速。三种未来情景 · 趋势停滞：边际收益递减、算力/能源供给受限、新架构尚未出现；作者认为不太可能，但会给社会最多适应时间 · 持续自动化，人类仍掌方向：100 人公司可相当于万人组织；人类瓶颈转向审核与协调；作者认为最可能进入此情景 · 完整递归自我改进：AI 自主设计后继系统，人类角色转为监督与验证；科技进步完全由算力决定；最不确定、风险最高

译Anthropic 发布报告显示，Claude 正被深度用于开发下一代 AI，趋势加速或导致系统自主设计后继版本。外部指标：模型可靠完成任务时长约每 4 个月翻倍，SWE-bench 两年内饱和，CORE-Bench 15 个月内饱和，长时任务达 16 小时。内部数据：截至 2026 年 5 月超 80% 主干代码由 Claude 撰写；工程师日均合并代码量是 2024 年的 8 倍；员工中位数估计产出为无 AI 时的 4 倍；实验执行从约 3x 提升至约 52x；自主研究恢复能力达人类两组研究者一周工作量的 97%（人类约 23%）；研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

meng shao@shao__meng · 6月5日50

最近感觉 X 的今日新闻，推荐的越来越准了 Anthropic: When AI builds itself https://www.anthropic.com/institute/recursive-self-improvement Dreaming: Better memory for a more helpful ChatGPT https://openai.com/index/chatgpt-memory-dreaming/ VoidZero is joining Cloudflare https://blog.cloudflare.com/voidzero-joins-cloudflare/

Chubby♨️@kimmonismus · 6月5日78

I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quite clearly that even if development ceased entirely, if all development were frozen, they would still witness massive societal changes: "Even if model capabilities were frozen at today’s level, we would expect major changes to occur in the world. (...) And we are still early in the diffusion of today’s models into the wider economy, where a 100-person company can increasingly do the work of a 1,000-person one, because each employee will sit atop a pyramid of agents." But there's no question of stagnation. Anthropic itself still maintains that development has exceeded its own internal assumptions. Take that statement seriously for a second and consider it. Although Anthropic models internally and assumes exponential development, even this trajectory lags behind actual development, which is even faster. "It's happening faster than we thought, and the implications deserve greater attention." and "The rate at which AI models improve is accelerating. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months. In March 2024, Claude Opus 3 could complete software tasks that take humans about four minutes to complete. A year later, Claude Sonnet 3.7 managed tasks that took about an hour and a half. A year after that, Claude Opus 4.6 managed 12-hour tasks.1 If this trend holds, tasks that take a skilled person days could come into range this year. So again: there can be no question of standing still. The models are not only getting better, they can also work autonomously for longer. Certainly numerous breakthroughs are still needed, context window is still a problem. But the most likely direction is that the models themselves will find the solutions to the underlying problems. This opens up unforeseen possibilities, and Demis Hassabi's statement that the golden age of science is not a dream, not a utopia, but a purposeful reality, is now confirmed. And finally, it's not just Anthropic, but also OpenAI, that sees this development, considers it feasible, and is moving forward. Most people don't know what's coming. But one thing is certain: it's coming even faster than expected. And it will be even bigger. Myth was just the beginning.

译Anthropic内部数据显示，AI模型可自主完成任务时长加速增长：Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约90分钟，Opus 4.6（2026年3月）12小时，翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍，Claude代码占代码库80%+，单个AI曾一次性修复800+API错误（相当于人力四年）。最难开放任务成功率6个月内从低点升至76%。Anthropic强调，即使模型能力冻结，100人公司通过智能体即可完成1000人工作；实际发展已超越自身指数假设，递归自我改进虽未实现，但可能比预期更快到来。

Emad@EMostaque · 6月5日81

foom!

译Anthropic内部数据显示，Claude正在加速AI开发——这可能走向递归自我改进，即AI自主构建更强大的后继者。进展比预期更快，影响值得更多关注。主推文仅感叹：“foom!”

宝玉@dotey · 6月5日75

OpenAI 给 ChatGPT 的记忆系统做了一次大升级，新架构叫“Dreaming”（做梦）。核心变化：ChatGPT 不再需要你主动说“记住这个”，它会在后台自动从你的聊天记录里提炼、整合、更新记忆。https://x.com/OpenAI/status/2062567559673856346/video/1 旧版记忆 2024 年 4 月上线，本质上是个笔记本，你说一句“记住我七月要去新加坡”，它就记一条。问题很明显：你没特意提的事它全忘，记下的东西也不会过期，七月过完了它还以为你在新加坡。新版 Dreaming 换了个思路：后台有个持续运行的流程，会跨多轮对话综合提炼你的信息，并且随时间推移自动更新。比如“你计划七月去新加坡”到了八月会变成“你七月去过新加坡”。 OpenAI 给出了三组评测数据，从 2024 年到 2026 年的变化： 1. 事实记忆准确率（你告诉过它你用什么相机，下次问相关推荐时能不能想起来）：41.5% → 67.9% → 82.8% 2. 偏好遵循率（你是素食主义者，它推荐餐厅时会不会忘了这一点）：31.4% → 55.3% → 71.3% 3. 时效性准确率（你旅行结束了，它还以为你在国外吗）：9.4% → 52.2% → 75.1% 时效性准确率指标提升最高，从接近零到七成多。这也是旧版记忆让用户不满意的的地方，记了就不更新，时间一长全是过期信息。文章里举了个很能说明问题的例子：用户之前跟 ChatGPT 聊过自己的水下摄影装备（Sony A1 II、Nauticam 壳、Backscatter Mini Flash 3、Inon Z-330），后来问“我想给水下摄影套装加个 TTL，需要买什么”。没有记忆的 ChatGPT 给了一大堆通用兼容性指南，让用户自己去查；有记忆的版本直接报出了具体型号和 SKU，还帮他分析了两个闪光灯分别该配哪个 TTL 触发器。用户可以在新增的“记忆摘要”页面里查看 ChatGPT 对你的了解，也可以手动修正或删除。目前 Plus 和 Pro 用户（美国）已经开始推送，免费用户也会在未来几周拿到。OpenAI 说通过优化把给免费用户提供 Dreaming 所需的算力降低了约 5 倍，这才让大规模铺开变得可行。有意思的是，Anthropic 在 5 月 6 日的 Code with Claude 开发者大会上也发布了自己的“Dreaming”功能，比 OpenAI 这次发布早了将近一个月。两家不约而同选了同一个词，但产品逻辑完全走了两条路。 OpenAI 的 Dreaming 是给普通用户用的。它在后台综合你跟 ChatGPT 的所有聊天记录，提炼出“你是谁、你喜欢什么、你最近在忙什么”，然后把这些信息注入每次新对话。解决的是“我跟 AI 聊了两年，它还是不认识我”的问题。目标是让 ChatGPT 变成一个越来越懂你的私人助手。 Anthropic 的 Dreaming 是给开发者用的，目前只在 Managed Agents API 里提供，以研究预览的形式开放。它的对象是“agent”。一个在生产环境里跑了几个月的 AI agent 会积累大量会话记录和笔记，Dreaming 在 agent 空闲时自动整理这些记录：合并重复条目、删除过期信息、把相对日期转成绝对日期（“昨天决定用 Redis”变成“2026 年 3 月 15 日决定用 Redis”），最关键的是从跨会话的历史里提取 agent 自己没意识到的模式。

译OpenAI 为 ChatGPT 推出记忆系统升级，新架构“Dreaming”可在后台自动从聊天记录提炼、整合、更新记忆，无需用户主动要求。评测数据显示：事实记忆准确率从 41.5% 升至 82.8%；偏好遵循率从 31.4% 升至 71.3%；时效性准确率从 9.4% 升至 75.1%。用户可在新增“记忆摘要”页面查看并手动修正。Plus/Pro 用户（美国）已开始推送，免费用户未来几周内收到。Anthropic 此前于 5 月 6 日发布同名功能，但面向开发者用于 agent 记录整理。

Chubby♨️@kimmonismus · 6月5日63

Get ready, friends. Anthropic appears to be preparing the release of its Mythos-level model. Pricing: $16 per 1M input tokens / $80 per 1M output tokens. The release is likely very close, possibly even in the same week as GPT-5.6. Competition is heating up again. Gemini 3.5 Pro is about to face serious pressure. It better be a banger.

译Anthropic 即将发布 Mythos 新版本（代号 Oceanus），性能超越 Mythos Preview。定价为每百万输入 token 16 美元、输出 80 美元。据 @birdabo 透露，Oceanus 已向部分红队开放测试，但因有人通过中国 API 代理转售访问权限而被暂停。主推文推测该模型可能在本周与 GPT-5.6 同一周发布，并认为 Gemini 3.5 Pro 将面临巨大压力。

宝玉@dotey · 6月5日57

如果有条件的话，选你能用的上的最聪明的 2-3 个就够了。只有你很在乎成本的情况下或者要做一些研究工作，才需要去使用其他便宜些的模型。再聪明的模型一个也不够，因为不够稳定和全面，比如最近 GPT-5.5 就不如 Opus 4.8 稳定，甚至写东西还得退回 Opus 4.6。翻译我还是最喜欢 Gemini 3.1 Pro 的版本。画图选 GPT Image 2。就算 Opus 4.8 不错，复杂一点任务我也会让 GPT-5.5 同时出个方案，对比一下，并不总是 Opus 的方案更好。 Token 贵的省时间，时间比 Token 还贵！

译宝玉建议只选最聪明的2-3个模型（如GPT-5.5、Opus 4.8），因单个模型不够稳定全面。翻译用Gemini 3.1 Pro，画图用GPT Image 2，复杂任务让多个模型并行对比。强调“token贵的省时间，时间比token更贵”，暗示深耕一两个最强模型即可。

🚨 AI News | TestingCatalog@testingcatalog · 6月5日78

ANTHROPIC 🔥: A new internal research has been published, highlighting an accelerated AI development and a potential path to recursive self-improvement. > Claude Mythos Preview could work for “at least” 16 hours and was “at the upper end of what [METR] can measure.” > Today, Anthropic engineers on average ship 8x as much code per quarter as they did compared to 2021-2025. Do you feel it? 👀

译Anthropic 发布内部研究，称 Claude 正加速 AI 开发，可能通往递归自我改进——即 AI 自主构建更强大的继任者。研究显示，Claude Mythos Preview 可连续工作至少 16 小时，达到 METR 可测量上限。同时，Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月5日73

HOLY SHIT LET'S FUCKING GOO

译HOLY SHIT LET'S FUCKING GOO 我们内部数据显示，Claude 正在加速 AI 发展——这可能通往递归自我改进，即 AI 自主构建更强大的后继者。这发生得比我们想象的更快，其影响值得更多关注。

Ethan Mollick@emollick · 6月5日76

"As of May 2026, more than 80% of the code we merge into Anthropic’s codebase was authored by Claude." Matches independent measures. There really is no sign this is slowing down (which doesn't mean there aren't organizational challenges to absorbing this much productivity gain)

译截至2026年5月，我们合并到Anthropic代码库中的代码有超过80%由Claude编写。与独立测量结果一致。确实没有迹象表明这一趋势正在放缓（但这并不意味着吸收如此多的生产率提升没有组织挑战）。

Ethan Mollick@emollick · 6月5日46

I think it is really worth reading this piece on RSI at Anthropic. There is a bit of navel-gazing, some marketing, and a lot of very sincere beliefs about what Anthropic thinks is likely in the near future of AI that you probably want to be aware of. https://www.anthropic.com/institute/recursive-self-improvement

译我认为这篇关于Anthropic的RSI（递归自我改进）的文章非常值得一读。其中有一些自省、一些营销，以及大量关于Anthropic认为AI近期可能发展方向的真挚观点，你或许应该了解。https://www.anthropic.com/institute/recursive-self-improvement

Chubby♨️@kimmonismus · 6月5日75

Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog article. Tl;dr: •We are close to an AI capable of fully autonomously designing and building its own successor •They stress this isn’t here yet and isn’t inevitable, but could arrive sooner than most institutions are ready for •Anthropic engineers now ship on average 8x as much code per quarter as they did in 2021–2025 •Task length AI can reliably complete is doubling roughly every 4 months (up from every 7 months) •Opus 3 (Mar 2024) handled ~4-minute tasks; Sonnet 3.7 (a year later) ~90-minute tasks; Opus 4.6 (a year after that) 12-hour tasks •SWE-bench went from low single digits to saturated in two years; CORE-bench (research reproduction) went ~20% to saturated in 15 months •METR found Claude Mythos Preview could work “at least” 16 hours, at the top of what they can currently measure •As of May 2026, Claude authored 80%+ of code merged into Anthropic’s codebase (low single digits before Claude Code launched in Feb 2025) •A March 2026 poll of 130 research staff: median respondent estimated ~4x output with Mythos Preview •One April 2026 example: Claude shipped 800+ fixes cutting a class of API errors 1,000x, work an engineer estimated would have taken a human four years •Claude-written code quality: worse than human in late 2025, roughly at parity now, expected to be strictly better within the year •On the hardest open-ended tasks, Claude’s success rate hit 76% in May 2026, up 50 points in six months •Code-speedup test: Opus 4 averaged ~3x speedup (May 2025), Mythos Preview ~52x (April 2026); a skilled human needs 4–8 hours to hit 4x •In an AI-safety research project, Claude agents recovered 97% of a performance gap (vs ~23% for two human researchers in a week), over 800 compute-hours and ~$18K •On picking the better “next step” in research sessions, the best model beat the human choice 51% (Nov 2025, Opus 4.5) rising to 64% (April 2026, Mythos Preview) •Human comparative advantage, for now: research taste and judgment, i.e. choosing which problems matter and when an approach is a dead end Three possible futures •The trend stalls (S-curve), but today’s capabilities still diffuse widely; they consider this least likely •Compounding efficiency gains, with humans still setting direction; 100-person firms doing the work of 10,000+; they think this is the likely path •Full recursive self-improvement, where AI builds its successors and pace is set by compute; the alignment outcome here is what they’re least certain about

译Anthropic 内部数据显示 Claude 能力增速远超预期，可能接近自主设计继任者的递归自我改进。关键指标：工程师人均季度代码产出是此前四年平均的 8 倍；AI 可可靠完成的任务时长每 4 个月翻倍，从 Opus 3 的 4 分钟升至 Mythos Preview 的至少 16 小时。截至 2026 年 5 月，Claude 撰写代码占 Anthropic 代码库 80%+，代码质量已与人类持平，年内将超越。最困难任务成功率 6 个月从 26% 升至 76%。Anthropic 认为趋势停滞可能性最低，复合效率增益最可能，完全递归自我改进的对齐结果最不确定。