# Anthropic发文：AI递归自我改进加速，三种未来可能性引担忧

- 来源：小互 (@xiaohu)
- 发布时间：2026-06-06 20:06
- AIHOT 分数：79
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq2bu8y7006asltc81qttx4n
- 原文链接：https://x.com/xiaohu/status/2063231167877558641

## 精选理由

Anthropic 第一次把内部数据亮出来，证明 AI 已经在加速开发自己。递归自我改进不再只是概念，而是现实趋势，从业者和决策者都该读一遍，心里有个谱。

## AI 摘要

Anthropic发文称AI正加速自我改进，可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示，AI可靠完成的任务时长翻倍周期从7个月缩至4个月，SWE-bench、CORE-Bench已被刷满。内部数据：Anthropic代码库超80%由Claude编写，2026年Q2工程师人均代码合并量为2024年的8倍，训练代码优化速度从3倍（Opus 4）升至52倍（Mythos Preview），超越人类研究员。Anthropic划出三种未来：S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进，并担忧对齐问题可能失控，呼吁国际协调监管。

## 正文

http://x.com/i/article/2063076298592051200

# 当AI 开始自己造自己 三种可能的未来…

Anthropic 发了篇文章：《When AI builds itself》，翻过来就是「当 AI 开始自己构建自己」。

他们称这叫递归自我改进：指的是 AI 强到能自己设计、训练出比自己更厉害的下一代 AI，整个过程几乎不用人插手。

Anthropic 说，他们正在把越来越多的「开发 AI」这件事本身交给 AI 自己来做，而且已经在明显加速。如果这个趋势走到头，理论上会出现一个能完全自主设计并开发出自己继任者的 AI 系统，这就是递归自我改进。他们强调现在还没到那一步，也不是必然会发生，但可能比大多数机构预想的来得早。

## 他们列出了三种可能的未来：

第一种是趋势停住，这些指数曲线其实是 S 曲线，到了拐点就平了。但 Anthropic 说他们不认为这个可能性大，因为目前每一项能力都还没看到曲线弯下来。

第二种是 AI 实验室持续吃到复利式的效率提升，人还在定方向、判断结果，但一个 100 人的公司能干一万人甚至十万人的活。文章说证据看下来，最可能进的就是这个剧本。

第三种就是真正的递归自我改进，AI 开始造自己的继任者，进步速度只取决于算力供给，人类大幅退居到监督和验证的角色。这一种 Anthropic 说他们最不确定的是对齐问题怎么收场，模型可能足够对齐、聪明到自己发现新解法，也可能今天那些罕见的失准随着模型一代代自我构建而被放大，直到失控。

## 它给了哪些证据

文章分成「外部公开证据」和「内部数据」两块。

外部：模型能力的提升在加速。 AI 能可靠独立完成的任务时长，大约每四个月翻一倍，比之前每七个月翻一倍更快了。具体说，2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务，一年后 Sonnet 3.7 能做约一个半小时的，再一年后 Opus 4.6 能做 12 小时的任务。

内部：Claude 现在写了 Anthropic 大部分代码。 截至 2026 年 5 月，合并进 Anthropic 代码库的代码里，超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前，这个比例还只有个位数。结果就是 2026 年第二季度，一个普通工程师每天合并的代码量是 2024 年的 8 倍。

文章把「造 AI」拆成两类活，对照看 Claude 到哪一步了：

工作类型 Claude 现在的水平 工程（写代码、跑训练） 人给目标，Claude 自己想方法，已经不需要人提供具体做法 研究（执行实验） 在执行定义清楚的实验上，已经能匹敌甚至超过熟练的人类 研究品味 / 判断（选哪个问题值得做） 差距还很大，这正是今天的 AI 和「能自主设计继任者」之间的鸿沟

有个很直观的例子：优化训练代码的速度上，2025 年 5 月 Opus 4 平均能把代码提速约 3 倍，到 2026 年 4 月 Mythos Preview 做到了约 52 倍，而一个熟练的人类研究员要四到八小时才能达到 4 倍。也就是在这一段上，Claude 已经从「很好用」变成「超人」了。

## AI 跑得这么快，要不要踩刹车，怎么踩

Anthropic 的想法是这样的：

第一，慢下来是好事，但我一家慢没用。

让 AI 发展慢一点，给大家留出时间应对，这当然好。可问题是，要是只有我 Anthropic 一个人停下来搞安全，那些不管不顾的公司照样往前冲，分分钟就把我超了。最后最强的 AI 落到最不靠谱的人手里，这不更吓人吗。所以我一个人踩刹车，纯属白搭，还帮了倒忙。

第二，那就得大家一起停。

既然单干没意义，那就所有人一块儿停。它想要的是：几个大国、几家跑在最前面的公司，说好同一套规矩，一起刹车。而且关键是，得能互相检查，确认你是真停了，不是嘴上答应、背后偷偷接着练。

第三，可这事太难查了。

它打了个比方。以前美苏比核武器，为啥能互相监督？因为导弹发射井那玩意儿藏不住啊，那么大一坨，卫星一拍就露馅了。

但训练 AI 完全两码事。机房里一堆芯片闷头跑，外人根本看不出你在干嘛。而且训练用的就是普通芯片、电、数据，满大街都是的东西，你也没法靠「盯着谁买特殊材料」来抓人。

结果就是，谁要是表面上答应停、私底下偷偷练，谁就能甩开所有守规矩的人，独吞这个领先。这就是最头疼的地方。

所以能看出 Anthropic 的小心思，哈哈。

它其实挺纠结：跑最前面的是自己，心里又怕这车开太快，想喊大家都停一停，可又怕没人理，因为你停了别人不停，你就吃亏。自己一家说了不算，最后只能寄希望于政府出来管管。

以下是文章全文：

## 当 AI 开始自己构建自己（原文全文）

我们在递归自我改进（recursive self-improvement）这条路上走到了哪里，又意味着什么。

在 AI 历史上的大多数时候，开发的每一步都由人来推动。但在 Anthropic，我们正把越来越多的 AI 开发工作交给 AI 系统自己来做，这让我们的工作明显加快了。

这个趋势一旦走得够远、算力给得够足，最终指向的就是这样一种 AI 系统：它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步，递归自我改进也并非注定会发生。但它到来的时间，可能比大多数机构准备好的要早。

The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据，要说明一件事：AI 已经在加速 AI 系统的开发。举一个例子就够了：今天，Anthropic 的工程师平均每季度交付的代码量，是 2021 到 2025 年间的 8 倍。

本文谈到的这些技术趋势意味着，未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI，将是技术史上的一件大事--它可能为世界带来巨大的好处，无论是在科学、医疗还是其他领域。但完全的递归自我改进，也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代，那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为，每一项都会变得重要得多。

2021-2023 - 造出第一代 Claude

最早那阵子，Anthropic 的工作和任何一家科技公司没什么两样：一群人对着笔记本电脑写代码、写文档。

2023-2025 - 聊天机器人

人们开始用早期的聊天机器人来帮忙完成流程中的一部分，比如生成简短的代码片段，再把输出复制到文本编辑器里。

2025-2026 - 编程智能体

随着智能体（agent）能力变强，它们能自己写代码、改代码，有时一改就是一整个文件。

今天 - 自主智能体

现在的智能体能自己运行代码，还能把数小时的活儿派给别的智能体去干。

20XX？ - 闭合回路

将来，智能体的能力可能强到足以自己构建和训练模型。真到了那一天，未来版本的 Claude 就有可能由 Claude 自己来持续改进。

## 来自外部世界的证据

AI 模型进步的速度正在加快。它们能靠自己可靠完成的任务时长，如今大约每四个月翻一番，而早先的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 能完成人类大约要花四分钟的软件任务。一年后，Claude Sonnet 3.7 已能搞定耗时约一个半小时的任务。再过一年，Claude Opus 4.6 能应付 12 小时的任务。1 如果这个趋势保持下去，今年熟练的人需要花好几天才能干完的任务，就可能进入它们的能力范围。到 2027 年，AI 系统也许就能完成一个人要做上好几周的任务。

同样的模式也出现在编程和研究类的基准测试（benchmark）上。基准测试衡量的是模型在某个领域里的表现，当模型的得分逼近 100% 时，这个测试就被"刷满"了--也就是测试已经失去了区分度。2 SWE-bench 是一项衡量真实世界软件工程能力的标准测试：它丢给模型一个真实的开源代码库和一份真实的 bug 报告，要求模型写出能修好这个问题、还得通过项目自带测试的代码改动。短短两年，模型的成绩就从个位数低位一路涨到把这项测试刷满。

CORE-Bench 检验的是模型能不能复现已有的研究，这是它们能开展原创研究的前提。它给 AI 模型一篇已发表论文背后的代码和数据，要求模型把所有东西重跑一遍，确认自己能复现出论文的结果。AI 系统复现结果的成功率，从 2024 年的大约 20%，到十五个月后把这项测试刷满。负责衡量模型完成长时任务能力的那项基准测试由 METR 运营，他们发现，Claude Mythos Preview 能"至少"连续工作 16 小时，已经"逼近 【METR】 在不设计新任务的情况下所能衡量的上限"。

公开基准测试能说明这些系统的能力有多强。但它们没法揭示 AI 系统对加速 AI 开发本身究竟产生了多大影响。要看清这一点，我们需要来自 Anthropic 这类 AI 公司内部的直接证据。

## 来自 Anthropic 内部的证据

造一个前沿模型，大体分两类活儿。一类是工程：写代码、搭起基础设施、盯着模型训练。另一类是研究：决定做哪些实验、读懂跑出来的结果、想清楚下一步该试哪些点子。

不管在工程还是研究上，呈现出来的画面是一致的。工程方面，你可以把一个没说清楚的问题丢给 Claude，它自己就能琢磨出怎么解；人负责给目标，但已经不必再给方法。研究方面，只要实验定义得足够清楚，Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标--不管是工程还是研究--巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间，差的就是这一段。

在 Anthropic，员工资历越深，接到的任务往往越开放、越重要，这很常见。刚来的时候，他们执行别人定好的任务，比如：*"导出按钮坏了，麻烦修一下。"积累了经验之后，别人只给一个目标，方案由他们自己来设计，比如："查一查网络在高负载下为什么会变慢。"到了最资深的层级，他们要决定的是哪些问题压根值不值得做："团队下个季度该造点什么？"*我们可以用 Anthropic 的内部数据，看看 Claude 在应对这几类不同任务上走到了哪一步。

Claude 写了 Anthropic 相当大一部分代码。 截至 2026 年 5 月，我们合入 Anthropic 代码库的代码里，超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前，这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里（2021-2024），每名工程师每天合入的代码行数基本没变；到了 2025 年，当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时，这个数字开始往上走。2026 年，当模型开始在更长的任务时长里自主干活，曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度，一名普通工程师每天合入的代码量，是 2024 年的 8 倍。4原因在于，大部分代码是 Claude 写的，工程师负责指挥和审查，而不是自己一行行敲。

得提个醒：代码行数是个不完美的衡量标准，它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数，几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic，我们不会按谁写的代码行数多去奖励谁；团队成员之所以产出更多代码，单纯是因为他们在用 AI 系统来写更多代码。

代码行数的增长，和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月，我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查，对于那些不管有没有 AI 都会去做的项目，受访者的中位数估计是：用上 Mythos Preview 后，他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此，我们认为这个总体说法是可信的，也和我们其他的观察一致：相当一部分 Anthropic 技术人员，正在以没有 AI 辅助时数倍的速度完成他们的核心工作。

我们还看到一些证据：Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作，比如搭建探索性的工具，处理那些拖了很久的清理活儿。举个例子，2026 年 4 月，Claude 交付了 800 多个修复，把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计，换成人来做要花四年；解别人留下的 bug 又慢又磨人，而且人很难一下子把那么多陌生的上下文塞进脑子里。

> 大概一年前，我开始拼命往"Claude 化"上靠。那是一段疯狂的冒险，到现在，我已经差不多 5 个月没自己写过一行代码了。--Anthropic 员工*

Claude 写的代码"好"，而且越来越好。 所谓"好代码"，有两层意思：一是它能跑通，二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层，证据很清楚。过去一年里，Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率，一直在稳步下降--哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务"，指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点，从 Claude 在不同难度任务上随时间变化的成功率就能看出来，见下图。Claude 写的代码能跑通。

怎么看这张图：会话是否成功，由一个 Claude 评判者来判定；如果 Claude Code 智能体（agent）明显完成了用户的任务、过程中无需任何纠正，这次会话就算成功。工作负载的变化会导致成功率出现短期波动。

在最开放的那类任务上，Claude 的成功率在 2026 年 5 月达到了 76%，半年内提高了 50 个百分点。举个这个难度档位的例子：一次例行升级，结果让数万个训练任务接连崩溃。一名工程师把 Claude 接进了这场正在发生的事故，给的东西不过是一些文字说明和集群访问权限。Claude 一边处理还在运行的任务，一边一次只改一个环境设置去测试，最终定位到那个触发崩溃的、极其冷僻的单个调试开关，稳定复现了问题，并确认了修复方案。这件事，平常要花两到三天，Claude 用了约两小时就交付了。

第二层标准，是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层，人和 AI 之间的差距还在，但正在飞快缩小。Anthropic 内部没有完全的共识，但很多人认为，截至 2025 年底，Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的，而今天大致打平。我们预计，一年之内它就会更好。

这已经改变了 Anthropic 自己审代码的方式。如今，提交到我们代码库的改动，在被合入之前，先要经过一个自动化的 Claude 审查者--它专门找 bug、安全漏洞和其他缺陷。借助这个工具，我们做了一次回溯分析，发现：如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查，那么 claude.ai 过往事故背后约三分之一的 bug，本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师，是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。

> 截至 2025 年底，Claude 写的代码比 Anthropic 人类写的略差一些，今天大致打平，我们预计一年之内它会明显更好。

给 Claude 一个别人定好的目标，它很擅长跑实验去达成。 Anthropic 每发布一个模型，我们都会跑同一个测试：给 Claude 一段用来训练小型 AI 模型的代码，要求它在保证通过同样的正确性检查的前提下，让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的，所以 Claude 要做的，就是通过重写代码、运行、计时、再重写，去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月，Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月，Claude Mythos Preview 已经能做到约 52 倍。作为参照，一名熟练的人类研究员要达到 4 倍，得花四到八小时。7 在研究流程的这一环--在一个边界清晰的实验里优化各个步骤--Claude 在不到一年的时间里，从"非常有用"变成了"超越人类"。

> 今天大致的格局是这样：人类出想法，而模型能比以前快上一个【数量级】去实现、测试和评估这些想法。

Claude 在自己提出实验这件事上，也越来越强了。 2026 年 4 月，Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体--大致就是问：弱模型能否可靠地监督强模型？--然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限"：下限是那个弱的监督者自己单干能做到多好；上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周，把这中间的差距弥合了约 23%；而那些智能体在累计 800 小时里弥合了 97%，用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方：结果没能干净利落地迁移到生产规模的模型上，而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内，每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色，就是定方向。

> 整个过程里，Claude 几乎没怎么用到我帮忙，前后也就一到两天。我想，如果换成【一个初级同事】在同样的时间里拿着这样的结果回来找我，我大概会有点小小的佩服。未来已经到了。

Claude 在把研究会话引向研究成果这件事上，也越来越强。 我们考察了一批真实的 Claude Code 会话（时间在 2026 年 1 月到 3 月之间），里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题，比如搞清楚一次训练运行为什么老是崩溃，或者一个模型为什么在某项基准测试上得分很差。每一个案例里，我们都找到了一个研究员走弯路的时刻：他们追了一个方向，把会话带偏了，最后才又拐回正轨。然后，我们只把会话走偏之前的工作展示给不同的 Claude 模型，问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude，去判断到底是 AI 还是人类提出的下一步更好。8

因为我们是刻意挑那些已知人类选择还有改进空间的时刻（n=129），所以这并不是模型判断和人类判断之间的对等比较。这些时刻给我们的，是一组真实而有难度的情境--正确的下一步并不显而易见，而人类当时的选择，恰好可以当作一把有用的标尺，去衡量模型表现随时间的变化。按这个标准来看，我们在 2025 年 11 月最好的模型（Opus 4.5）有 51% 的时候胜过人类的选择；到了 2026 年 4 月（Mythos Preview），这个比例涨到了 64%。研究日复一日的工作，很大程度上就是一连串这种"下一步怎么走"的决策，所以这是一个有意义的衡量指标，能反映模型最终独立跑一项调查的能力。我们把这个结果看作一个早期信号：AI 系统正在越来越擅长做出那些 AI 研究所依赖的判断。

怎么看这张图：那条"实际上限"线，衡量的是一个能看到整场会话（包括它最后如何收场）的模型写出的"理想"答案。

> 就目前而言，人类的比较优势仍然在于看到更大的图景，以及跳出眼前任务的边界去思考。

## Anthropic 的工作未来会是什么样？

种种证据表明，在 AI 研发的每一个环节，人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平，人类就会彻底不再亲手写代码，转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度，人工审查就会成为 AI 研发的瓶颈。同样，一旦 Claude 能自己跑实验，问题就转向了"这些实验里哪个值得跑？"。说白了：那些动手的活儿（写代码、跑实验、产出结果）现在几乎不再花掉人的时间，哪怕它依然要消耗算力。

目前人类还占优势的领域，是研究品味和判断力--包括判断哪些问题重要、哪些结果可信、什么时候一条路已经走到了死胡同。

> 工作（和生活）原本运转在一种人与人之间小恩小惠的人情互助经济上。"能帮我把这个脚本跑起来吗？"【……】每一次求助都欠下一点小人情，多出一点彼此的牵挂。Claude 更快，不欠任何人情，可这每一次都是一次本可以发生、却落空了的人际协作。

> 在一切都顺的日子里，我忍不住会想，我做什么都没意义，所有事都被自动化了，比我做得更好更快，永远都比我强。可也有那种全盘崩掉的日子，我搞不懂哪里出了错，这才意识到，我已经完全不知道自己到底在干什么了。

## 万一我们错了呢？

针对上面这些证据，一个很自然的反驳是：还握在人类手里的那部分活儿--决定要去攻克哪些问题--才是最要紧的。没有这份判断力，Claude 只是个能干的助手，而不是一个能独立推动 AI 进步的系统。

今天的训练方法和架构能不能解锁这种能力，确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻，比如 Transformer 架构，或者混合专家模型（mixture-of-experts），但能改变范式的想法，往往隔好几年才来一次。在这些时刻之间，大多数进步都是渐进的：我们把某个东西放大规模，看它哪里崩了，修好，再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说，天才是 1% 的灵感加 99% 的汗水。但我们看到的是，汗水正在被越来越多地自动化。事情正变得越来越清楚：推动前沿往前走的东西，很大一部分是可以自动化的；大规模的研究进展，主要取决于工具和资源--它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。

就算我们假设 Claude 永远练不出好的研究品味，对我们这些证据做一种保守的解读，仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分（个位数比例）属于定方向的工作上，其余的全交给 Claude，那就意味着每一位工程师或研究员，都在驾驭比从前多得多的工作量。我们看到的证据表明，Anthropic 的人既跑得更快，又覆盖了更宽的面。落到实处就是：AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。

更不保守的解读则是：Claude 的研究判断力正在改善--这一证据如今虽然还很窄--但它本身就是一个信号，说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力：AI 系统起初做不好，过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹，比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论（theory of mind，推测他人想法的能力）、能解开语言谜题。

## 几种可能的未来

接下来会发生什么，取决于两件事：这个趋势会不会延续下去，以及如果它延续下去，我们选择怎么做。我们至少能设想三种未来情景：

1. 趋势停滞，但今天的 AI 能力已被广泛扩散。 本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处--规模带来的回报开始递减，曲线先变直，再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力，也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样，要突破这道瓶颈，就得有一个新想法，比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者，制约 AI 进步的硬约束不在模型本身，而在供应链上：推动前沿往前走、并把它扩散出去，所需要的能源和算力可能比现在拥有的更多。真正的瓶颈，也许是芯片制造的速度、电网扩容的速度、或者互连带宽，而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能，比如算力或电力的供给突然萎缩--无论哪一种，都会拖慢进步，并让各家实验室的前期投入变得更贵。再或者，我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平，我们仍然预期世界上会发生重大变化。Project Glasswing（玻璃翼计划）就是一个早期的征兆：上线头几周，Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞--多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程，其实还处在很早的阶段--在那里，一家 100 人的公司将越来越能干出 1000 人公司的活儿，因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整，但并不认为它很可能发生。每一项我们能测量的能力，包括那些感觉更"软"的能力--比如代码质量、开放式任务上的成功率--到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里，这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种，它们会推进得更快，留给我们准备的空间也要小得多。

1. AI 实验室持续看到复利式的效率收益。 在这种情景里，AI 研发被大幅自动化，但人类继续来定研究方向、判断结果。随着时间推移，那些使用 AI 系统的组织会变得高效得多，于是我们可以预期，这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务，但也可能被用到有害的方向上--从对整个人口的威权式监控，到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里，人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见，并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明，我们很可能正走向这种情景。但是，把一个流程里的某一段加速了，往往只是把瓶颈挪到了别处：整体节奏，会被那些还没提速的环节卡住。在计算机领域，这叫阿姆达尔定律（Amdahl's law），同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现：随着我们开始在组织内部推动更多代码流转，人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型，催生出了大量新点子、新计划、新工具、新模拟--多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈，也许本身就是一项会随时间长进的技能，而且它可能会成为任何组织最重要的那项技能。

1. AI 系统自身具备完整的递归自我改进能力，并开始构建它们的后继者。 如果能力推进的技术趋势延续下去，并且 AI 系统能发展出那种属于变革性人类智慧的能力，那么 AI 系统设计并打磨自己，就是有可能发生的事。在这个世界里，AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力（或者发现算法训练、推理上各种提效手段的速度）。人类在研发中扮演的角色会大大缩小，很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期，有能力自动化 AI 研发的系统，其技能会迁移到科学的其余领域，让它们开始去变革其他学科。在这种未来里，对齐问题（alignment problem，让 AI 行为符合人类意图）会怎么被解决--或者解不解得了--是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好，于是发现并实现一些我们还没触及的新解法。它们也可能足够明智，在没法解决时主动叫停研发。但反过来，今天的模型身上那些罕见的失准现象，也可能在模型构建后继者的过程中层层累积，变得越来越频繁、却越来越无人能懂，直到我们对它们失去控制。也有可能，我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样，我们没有什么靠谱的直觉，因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说，一个由快速递归自我改进驱动的世界，可能会被那个自我改进的模型所主导--它的能力彻底盖过人类，又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力，经济会变成什么样，很难预测。就算模型研发变得彻底自动化、彻底递归，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现 《Machines of Loving Grace》（慈爱机器，Dario Amodei 的同名文章）中勾勒的许多好处。我们预期，具身智能（也就是机器人技术）可能会很快跟上递归智能，并沿着一条类似的路径走--回报递增，成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西，把救命药的临床试验跑得更有成效，并发展出全新的协调形式。但单单实现了递归改进，并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能，也学不会一款药在几十年的服用中到底有什么效果，没法让选举来得比宪法规定的更早，也没法在一个周末里把陌生人变成多年老友。对大多数人来说，这种未来在体感上的节奏，仍然会由那些瓶颈来设定，哪怕上游的实验室是以算力的速度在运转。这种碰撞--递归智能把自己造得越来越快，撞上人、关系与治理的世界--也是这个未来里我们无法预测的一部分。

## 我们该怎么办？

如果真能有效放慢这项技术的发展、给我们自己留出更多时间来应对它那些深远的影响，我们认为这大概是件好事。但如果放慢只是让那些最不谨慎的玩家在技术上追了上来，结果反倒可能让所有人都更不安全。没有一个全球协调机制，企业和政府就只能在竞争和地缘政治的压力下，被迫去做那些关乎安全的两难抉择。

我们认为，让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项，是件好事--这样社会结构和对齐研究（让 AI 行为符合人类意图）才有机会跟上技术的脚步。Anthropic Institute 将开展研究--与许多其他机构合作--并采取行动，帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查：全球其他人是否真的停了或慢了下来，以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在，我们预计自己也会放慢或暂时暂停--前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。

一次有分量的放慢或暂停，需要多个资源充足、处在前沿或逼近前沿的实验室--分布在多个国家--同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质，这个军控难题里"可探测性"（一个比可核查性更低的标准）这一环，比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏，它的投入又是通用的，而悄悄违约的诱惑大得惊人--因为在别人暂停时还在继续往前跑的那一方，就能把领先地位收入囊中。一个可信的暂停还得说清楚：什么触发它、什么解除它、由谁来裁定。

这些在原则上都未必做不到--这个世界已经为其他复杂技术建起过核查机制（比如《中导条约》（中程导弹力量条约））--可那些机制花了几十年才把基础设施和信任都建起来。我们没有那么长的时间。相比之下，单个实验室单方面暂停可以立刻做到，但成效要小得多：它会改变谁是领跑者，却造不出眼下所缺的那种更广泛的协商过程。

接下来几个月，我们会组织一系列对话，让政策制定者、研究者、公民社会和其他 AI 公司一起来回答本文提出的一些问题，尤其是围绕完整的递归自我改进，以及如何为协调与协商创造出更好的选项。我们会把对话的成果公开出来。一起探究这些问题的窗口期就在眼前，而 AI 公司之外的人也应该参与到这场协商中来。

本文由 Marina Favaro 和 Jack Clark 共同撰写，Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 与 Jun Shern Chan 收集的数据制作了图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。

## 脚注

1. METR 的关键指标，衡量的是 AI 系统在一组任务上能保持 50% 可靠度的任务时长；不过把可靠度提到 80%，趋势线看起来也一样。

1. 尤其是当基准测试转向更开放的形式、更难的任务（比如奥林匹克级别的数学）时，基准测试常常在不到 100% 的地方就刷满，原因是题目和答案集里有错--比如表述含糊的题目，以及根本无解的题。

1. Anthropic 的高层曾公开估计，我们的代码有 90% 或更多是 Claude 写的，包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字，衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守：一是我们的归因流程本身有缺口；二是没有归到 Claude 名下的那些代码行里，还包含自动生成的代码和其他同样不是人手写的产物。

1. 这股代码产量的激增，正在挤压所有人共享的基础设施。GitHub--全世界大多数软件都建在它之上--整个 2025 年录得约 10 亿次代码提交；到 2026 年年中，每周就有 2.75 亿次，照这个势头全年约 140 亿次。该公司的首席运营官说，光是为了跟上节奏，他们就在"拼了命地"扩容。

1. 这项调查方法的更多细节，在 Claude Opus 4.7 System Card 的第 2.3.5 节有讨论。

1. 许多受访者可能并没有仔细想过怎么处理问题定义里的各种偏差或微妙之处，而 METR 近期的研究表明，开发者对 AI 带来的生产力提升的估计可能被高估。

1. 提速能有多大，很大程度上取决于起始代码本身还留有多少改进空间，所以这个数字不能被当成真实世界里的训练提速。因此这里要锚定的不是那个绝对倍数。更有参考价值的，是这套实验设置所能做到的同条件对比--既包括跨模型的对比（过去一年里从 ~3 倍到 ~52 倍），也包括跟一位熟练的人类的对比（在同一任务上，四到八小时内约 4 倍）。

1. 为了核查评判偏差，我们在另一组 127 个时刻上跑了同样的测试--这组里人类接下来要走的那一步本身就已经很强（而原来那组里，人类的方向还有改进余地）。在这组里，模型给出的建议被判定更优的比例只有约 20%。

* 本文通篇引用的 Anthropic 员工话语，均来自内部讨论，并已获许可使用。它们反映的是个人截至 2026 年 5 月的看法，而非公司的官方立场。
