Anthropic 报告递归式自我改进进展

2026-06-05 04:12·27天前·meetpateltech

精选理由

Anthropic这篇不是PR，是用真实内部数据画的递归路线图，代码产量8倍、实验提速50倍，让“人类设定方向、AI干活”不再只是愿景，每个从业者都该认真读一遍。

AI 摘要

Anthropic 近日发表文章《当人工智能自我构建：我们在递归式自我改进方面的进展》，报告其在递归式自我改进方面的进展，探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。

AI 翻译 · 中文

当AI构建自身

我们在递归式自我改进上的进展及其影响。

在AI发展的大部分历史上，人类驱动了其开发周期中的每一步。但Anthropic正在将AI开发中越来越多的部分委托给AI系统本身，这加速了我们的工作。

如果发展到足够程度，并给予足够的算力，这一趋势指向一个能够完全自主设计并开发自身后继者的AI系统。这被称为递归式自我改进。我们尚未达到那一步，递归式自我改进也并非必然发生。但它可能比大多数机构做好准备的时间点来得更早。

利用公开基准测试以及Anthropic内部此前未公开的数据，Anthropic研究所正在展示AI已经在加速AI系统的开发。仅举一例：如今，Anthropic工程师每季度平均交付的代码量是2021年至2025年期间的8倍。

本文讨论的技术趋势表明，AI系统在未来几年将变得更加强大。这些趋势具有巨大的影响。能够自我构建的AI将是技术史上的重大发展——它可能为世界带来科学、医疗等领域的巨大福祉。但完全的递归式自我改进也可能增加人类失去对AI系统控制的风险。如果系统能够完全构建自身的后继者，那么我们用于保护它们、监控它们以及塑造它们行为的所有方式都变得更为重要。

2021–2023

构建第一个Claude

在早期，Anthropic的工作与其他科技公司并无二致：人们在笔记本电脑上编写代码和文档。

2023–2025

聊天机器人

人们使用早期聊天机器人来辅助部分流程，例如生成短代码片段并将输出复制到文本编辑器中。

2025–2026

编码智能体

随着智能体能力增强，它们能够自行编写和编辑代码，有时甚至是整个文件。

今天

自主智能体

智能体现在可以自己运行代码，并将数小时的工作委托给其他智能体。

20XX年？

闭环

在未来，AI 智能体可能变得足够强大，能够自行构建和训练模型。如果这种情况发生，未来的 Claude 版本可以由 Claude 自身持续改进。

来自外部世界的证据

AI 模型的改进速度正在加快。它们能够自主可靠完成的任务时长大约每四个月翻一番，而此前的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 可以完成人类大约需要四分钟的软件任务。一年后，Claude Sonnet 3.7 处理了大约需要一个半小时的任务。又过了一年，Claude Opus 4.6 处理了时长为 12 小时的任务¹。如果这一趋势持续下去，今年内能够处理熟练人员需要数天才能完成的任务。到 2027 年，AI 系统可能能够处理人类需要数周才能完成的任务。

同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的性能，当模型达到接近 100% 的性能时，就会被称为“饱和”²。SWE-bench 是一个标准测试，用于评估实际软件工程能力：它向模型提供一个真实的开源代码库和一个实际的错误报告，要求模型编写代码修复问题，并通过项目自身的测试。模型从最初得分仅为个位数，到两年后使该基准测试达到饱和。

CORE-Bench 测试模型能否复现已有研究——这是模型进行原创研究的前提条件。它向 AI 模型提供已发表论文背后的代码和数据，要求模型重新运行所有内容，并确认能够复现该论文的结果。AI 系统从 2024 年大约 20% 的成功复现率，到十五个月后使该基准测试达到饱和。运行衡量模型完成长时间任务能力的基准测试的 METR 发现，Claude Mythos Preview 可以“至少”工作 16 小时，并且处于“METR 在不使用新任务情况下所能测量的上限”。

公开基准测试能在很大程度上反映这些系统的能力。但它们无法揭示 AI 系统在加速 AI 自身发展方面所产生的影响。要了解这一点，我们需要来自 Anthropic 等 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建前沿模型需要两大类工作。一类是工程：编写代码、搭建基础设施、监督模型训练。另一类是研究：决定要运行哪些实验、解读实验结果、思考下一步该尝试哪些想法。

在工程和研究两个领域，情况是一致的。在工程方面，可以交给 Claude 一个未明确说明的问题，让它自己想办法解决；人类提供目标，但不再需要提供具体方法。在研究方面，执行一个明确界定的实验时，Claude 已经能媲美甚至超越熟练的人类。然而，在工程和研究两个领域，当需要 Claude 运用判断力选择目标时，依然存在巨大的性能差距。这正是今天的 AI 与未来能自主设计自身继任者的系统之间的鸿沟。

在 Anthropic，员工随着经验积累，往往会承担更开放、更重要的任务。初期，他们执行的是别人指定好的任务，比如“导出按钮坏了，请修复”。有了经验之后，他们会被赋予一个目标，自己设计方法，例如“调查一下网络在高负载下变慢的原因”。到了最高级别，他们要决定哪些问题值得花时间去做：“团队下个季度应该构建什么？”我们可以利用 Anthropic 的内部数据来了解 Claude 在处理这些不同类型任务方面已经达到了什么程度。

Claude 编写了 Anthropic 相当大比例的代码。截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码有超过 80% 是由 Claude 编写的。3 在 2025 年 2 月 Claude Code 以研究预览版形式推出之前，这一数字只有个位数。这一变化也体现在每位工程师的产出量上。在 Anthropic 的前四年（2021-2024），每位工程师每日合并的代码行数一直保持不变，随后在 2025 年开始上升，当时 Claude 开始实际运行代码，而不仅仅是建议代码让工程师复制粘贴。到了 2026 年，当模型开始能够在更长时间范围内自主工作时，斜率再次变陡。这两个拐点如下表所示。在 2026 年第二季度，普通工程师每天合并的代码量是 2024 年的 8 倍。4 这是因为大部分代码由 Claude 编写，工程师则负责指导和审查，而不是自己手动输入。

Bar graph showing code contributed per person, per quarter, starting in Q2 2021 and ending in Q2 2026. The graph notes the release dates of eight different models: Claude 1, Claude 2, Claude 3, Claude 4, Claude Code, Claude Sonnet 4.5, Claude Opus 4.5, Claude Mythos Preview (internal access), and Claude Mythos Preview.

需要说明一点：代码行数是一个不完美的度量指标，因为它衡量的是数量而非质量。因此，2026 年第二季度每天每位工程师合并 8 倍代码行数，几乎肯定是夸大了实际的生产力提升。尽管如此，这仍表明了一种加速趋势。在 Anthropic，我们不会根据员工写了多少行代码来奖励他们；相反，团队成员之所以写出更多代码，仅仅是因为他们正在使用 AI 系统来编写更多代码。

代码行数的增加与主观上感受到的生产力大幅提升是一致的。在 2026 年 3 月针对 Anthropic 研究团队的 130 名员工进行的一项调查中，受访者给出的中位数估计是：在使用 Mythos Preview 的情况下，他们对于那些无论是否使用 AI 都会从事的项目类型，其产出量约为不借助任何 AI 模型时的 4 倍。5 我们预计 3 月份的实际提升幅度要略低一些。6 尽管如此，我们认为整体论断是合理的，并且与我们其他的观察结果一致：Anthropic 相当一部分技术人员完成核心工作的速度比没有 AI 辅助时快数倍。

我们还看到有迹象表明，Anthropic 的员工正在使用 Claude 来完成那些原本根本不会发生的工作，比如构建探索性工具和解决长期搁置的清理任务。例如，在 2026 年 4 月，Claude 修复了超过 800 个问题，将某类 API 错误减少了千倍。负责监督 Claude 的工程师估计，人类需要四年才能完成这项工作；修复别人的 bug 既缓慢又费神，而且人类很难同时记住那么多不熟悉的上下文。

大约一年前，我开始大力推行“Claude 化”。那是一段疯狂的冒险，而我自己已经大约有 5 个月没有写过任何代码了。

Anthropic 员工*

Claude 编写的代码是“好”的，而且还在不断改进。“好代码”意味着两件事：它能工作，并且编写方式能让另一位工程师理解并在此基础上构建。在第一个标准上，证据是明确的。Anthropic 员工在任务中途纠正、引导或接管 Claude 的频率在过去一年中持续下降，包括在最复杂和最开放式的任务上。这意味着那些没有明确规格、工程师也不确定答案样子的问题时。这一点从下图中 Claude 在不同难度任务上的成功率随时间的变化中可以看出。Claude 编写能工作的代码。

Line graph showing the Claude Code session success rate on four different types of tasks—trivial tasks, routine tasks, substantial tasks, and open-ended problems—with six different models: Claude Sonnet 4.5, Claude Opus 4.5, Claude Opus 4.6, Mythos Preview (internal access), Mythos Preview, and Claude Opus 4.7. — 如何阅读此图：会话成功由 Claude 评判器判定；如果 Claude Code 智能体在用户任务中明显成功且无需纠正，则该会话被视为成功。工作负载的变化可能导致成功率出现短期波动。

在最开放式的任务中，Claude 的成功率在 2026 年 5 月达到了 76%，六个月间提升了 50 个百分点。举一个该难度层级任务的例子：一次例行升级导致数万个训练任务崩溃。一位工程师将 Claude 指向这个实时故障，仅提供了少量文本内容和集群访问权限。Claude 遍历正在运行的任务，逐一测试环境设置，最终找到了那个触发崩溃的晦涩调试标志，可靠地复现了该问题，并确认了修复方案。大约两个小时内，Claude 完成了通常需要两到三天的工作量。

第二个标准是编写其他工程师能够理解并在此基础上继续开发的代码。在这一方面，人类与 AI 之间的差距依然存在，但正在迅速缩小。Anthropic 内部员工并未达成完全共识，但许多人认为，在 2025 年末，Claude 编写的代码质量仍低于人类工程师编写的代码，而目前两者大致持平。我们预计一年内 AI 编写的代码将更胜一筹。

这已经改变了 Anthropic 现在审查自身代码的方式。对我们代码库的修改建议现在会在合并之前由自动化的 Claude 审查员读取，以查找错误、安全漏洞及其他缺陷。使用该工具，我们进行了回顾性分析，发现如果每次代码库变更都经过 Claude 的自动化审查，那么 claude.ai 上以往事故背后大约三分之一的错误在进入生产环境之前就会被发现。编写那些代码的工程师是全球最擅长构建这些系统的人之一。而 Claude 正在捕捉他们所遗漏的错误。

在 2025 年末，Claude 编写的代码质量略低于 Anthropic 人类工程师编写的代码，如今两者大致持平，我们预计一年内它将严格优于人类编写的代码。

Claude 非常擅长通过运行实验来实现别人设定的目标。每次 Anthropic 发布新模型时，我们都会运行同一个测试：给 Claude 一段训练小型 AI 模型的代码，要求它在不改变正确性检查通过率的前提下，尽可能让这段代码跑得更快。目标和成功指标都是事先定好的，因此 Claude 的任务就是通过重写代码、运行、计时、再重复这一循环来找到加速方案。这可以看作是一个微型实验研究循环。2025 年 5 月，Claude Opus 4 相比初始代码平均实现了约 3 倍加速；到 2026 年 4 月，Claude Mythos Preview 已经达到了约 52 倍加速。作为参照，一位熟练的人类研究人员需要四到八小时才能达到 4 倍加速。在这一研究流程环节——即优化明确定义实验中的步骤——Claude 在不到一年的时间里，从“超级有用”进化到了“超越人类”。

当前的大致格局是：“人类提出想法，模型能够以比以往快一个数量级的速度来实施、测试和评估这些想法。”

Claude 正在变得越来越擅长自己提出实验。2026 年 4 月，Anthropic 首次公开演示了 Claude 端到端运行一个开放式研究项目。基于 Claude 的 AI 智能体被赋予了一个 AI 安全领域的开放性问题——大致上可以表述为：一个较弱的模型能否可靠地监督一个更强的模型？——然后让它们自行解决这个问题。这整个过程包括提出假设、验证假设、与并行的智能体共享发现、以及迭代改进。该任务有一个清晰的性能“下限”和“上限”：下限是这个弱监督者独自完成时的表现；上限是强模型在正确答案上训练后的表现。两名人类研究人员在大约一周的时间内，填补了大约 23% 的差距；而智能体在累计 800 小时的运行中填补了 97% 的差距，消耗了约 18,000 美元的算力。这项研究有一些局限性：结果并未平滑迁移到生产规模的模型上，而且人类仍然负责了选题并制定了评分标准。但在这个范围内，每个实验本身都是由智能体自行设计的——设定方向是人类扮演的唯一有意义的角色。

克劳德在短短一到两天内完成这一切，过程中几乎没怎么需要我帮忙。我觉得，如果（一位初级同事）在同样时间内带着这样的成果来找我，我会略感惊艳。未来已来。

克劳德在将研究对话引导到研究成果上正变得越来越擅长。我们审视了真实的克劳德编程会话（时间跨度为 2026 年 1 月至 3 月），在这些会话中，Anthropic 的研究人员与克劳德合作处理开放式探究问题，比如弄清楚某次训练为何反复崩溃，或者某个模型为何在某个基准测试上得分很低。在每个案例中，我们都发现研究人员曾走入岔路：他们沿着一个方向推进，导致会话偏离正轨，之后才重新回到主线上。然后，我们向不同的克劳德模型展示会话偏离正轨之前的工作部分，并询问它接下来会怎么做。另一个能够看到会话最终走向的克劳德模型则判断，是 AI 还是人类提出了更好的下一步行动。8

因为我们刻意选择了那些已知人类选择尚有改进空间的时刻（n=129），所以这并非模型判断与人类判断之间的直接对比。这些时刻给我们带来的是一系列真实且具有挑战性的情境，在这些情境中，正确的下一步并不明显，而人类的选择则成为衡量模型随时间推移表现的一个有用标尺。以此衡量，我们 2025 年 11 月的最佳模型（Opus 4.5）在 51% 的情况下胜过人类选择；到 2026 年 4 月（Mythos 预览版），这一比例提升至 64%。研究的日常工作在很大程度上就是一连串这样的下一步决策，因此这是我们衡量模型最终自主开展探究能力的相关指标。我们将这一结果视为早期信号，表明 AI 系统在做出 AI 研究所依赖的那种判断决策方面正变得更好。

Bar graph with the header "Can the model pick a better next step than the human?" The bar graph shows the performance of nine different models: Claude 3 Haiku, Claude Sonnet 4, Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5, Claude Sonnet 4.6, Claude Opus 4.6, Claude Opus 4.7, and Claude Mythos Preview. — 如何解读：实际天花板线衡量的是由能够看到整个会话（包括其最终结果）的模型所写出的“理想”答案。

人类当前的优势仍然在于洞察全局，并能跳脱眼前任务的局限去思考。

Anthropic 未来的工作会是什么样子？

有证据表明，在 AI 开发过程的每一步，人类的作用都在缩小。一旦人类编写的代码和 AI 编写的代码质量达到同等水平，人类将完全停止编写代码，转而只负责审查代码。但如果他们审查代码的速度赶不上 Claude 生成代码的速度，人工审查就会成为 AI 开发的瓶颈。同样，一旦 Claude 能够运行实验，问题就变成了“这些实验中哪些值得运行？”简而言之：执行（即编写代码、运行实验、产出结果）现在几乎不消耗人类时间，尽管在算力上仍有成本。

目前，人类比较优势的一个领域是研究品味和判断力，包括选择哪些问题重要、哪些结果值得信赖、以及何时某个方向是死胡同。

工作（和生活）曾建立在人与人之间的小恩小惠的礼物经济之上。“你能帮我让这个脚本跑起来吗？”……每一个请求都会产生一点人情债、一点相互关注。[Claude] 更快，它不会产生任何债务，但每一次求助都失去了一次寻求人类协作的机会。

在一切顺利的日子里，我不禁觉得我做的事毫无意义，一切都自动化了，比我做得更好更快。但也有那么些日子，所有东西都崩溃了，我不明白为什么，我意识到我完全不知道自己在忙什么了。

如果我们错了呢？

对上述证据的一个自然反驳是，仍然掌握在人类手中的工作——选择解决哪些问题——才是最重要的。没有这种判断力，Claude 只是一个能干的助手，而不是一个能自主推动 AI 进步的系统。

当前训练方法与架构能否释放这种能力，目前尚无定论。但人工智能的进步很少来自“灵光乍现”的时刻。在AI的近期历史中，确实有过这样的突破，比如Transformer架构或混合专家模型，但颠覆范式的创意往往数年才出现一次。在这之间，大多数进步都是渐进式的：我们把某个东西放大，看看哪里出了问题，修复它，然后再次尝试。这正是Claude目前所擅长的流程。爱迪生说过，天才是1%的灵感加上99%的汗水。但我们看到汗水正变得越来越自动化。越来越明显的是，许多推动前沿进步的工作都是可以自动化的；大规模的研究进展主要取决于工具和资源，它们决定了你能多快、同时进行多少实验，以及多快能获得结果。

即使我们假设Claude永远无法培养出良好的研究品味，对我们证据的保守解读仍然意味着复合加速。如果人类将大部分时间花在方向性把握（仅占工作的个位数百分比）上，而由Claude处理其余部分，那就意味着每位工程师或研究人员正在引导的工作量远超以往。我们看到的证据表明，Anthropic的员工既行动得更快，也覆盖了更广的领域。在实践中，这意味着AI已经让Anthropic的运转速度远超有效AI工具出现之前。

不那么保守的解读是，Claude研究判断能力提升的早期证据——尽管目前还很狭窄——表明这种能力本身也在持续改善。“研究品味”可能只是AI系统在一段时间内表现不佳、但随后能做得更好的又一项AI能力。我们在其他定性技能上也看到过类似的模式，比如AI系统能够解释一个笑话为什么好笑、展现心智理论、以及解决语言谜题。

可能的未来

接下来会发生什么，取决于两件事：这一趋势是否持续，以及如果持续，我们选择如何应对。我们至少可以设想三种未来情景：

这一趋势正在放缓，但当今的AI能力已广泛扩散。本文展示了许多指数级增长轨迹。但这些轨迹实际上可能是S形曲线。我们可能正接近曲线的拐点，规模收益递减，曲线先变直，然后趋于平缓。区分优秀研究者与卓越研究者的判断力，可能是一种无法通过扩大算力和数据等训练输入规模来获得的能力。如果是这样，突破这一瓶颈就需要新的思路，例如用某种架构方法取代当前所有前沿模型所使用的Transformer架构。另一方面，AI进展的制约因素可能在于供应链而非模型本身：推进和扩散前沿技术所需的能源和算力可能超过现有水平。芯片制造、电网扩展或互联带宽的速度可能成为制约因素，而非智能本身。我们也不能排除AI生态系统受到外生冲击，导致发展急剧放缓——例如算力或电力供应突然减少，这都会拖慢进展，并使实验室的前瞻性投资成本更高。或者，我们可能尚未预见到其他进展障碍。即使模型能力冻结在当今水平，我们也预期世界将发生重大变化。Project Glasswing就是一个早期迹象：在其最初几周内，Mythos Preview在全球最重要的系统中发现了超过一万个高危和严重级别的软件漏洞——以至于网络防御的瓶颈已经从发现漏洞转向了足够快速地修补漏洞。而且，当今模型向更广泛经济的扩散仍处于早期阶段，一家100人的公司可以越来越多地完成过去1000人公司的工作，因为每位员工都将坐在一个由智能体组成的金字塔顶端。为完整起见，我们列出了这一情景，但我们认为它不太可能发生。我们所能衡量的每一项能力——包括那些感觉更“软性”的指标，如代码质量和开放式任务的成功率——迄今为止都遵循着相同的曲线。我们尚未看到这条曲线发生弯曲。在我们考虑的三种未来中，这一种将给政府和社会最长的适应时间。我们更担心另外两种未来，它们发展更快，留给准备的空间也小得多。
AI 实验室持续看到效率的复合增长。在这一情境下，AI 开发将大幅自动化，但人类仍负责设定研究方向并对结果作出判断。使用 AI 系统的组织会随时间推移变得越来越高效，因此我们可以预期，组织中的每个人将实现显著的生产力倍数增长。一百人的公司可能完成一万或十万人组织才能完成的工作。这将彻底改变知识工作和政府服务，但也可能被用于有害目的——从对整个群体进行威权监控，到针对每个个体量身定制操纵手段并以任何人类团队都无法匹敌的规模运行的影响力行动。像 Anthropic 这样的公司中，人类的角色将发生转变。人们将与 AI 系统合作，扩大研究规模并产生新的洞察，同时共同构建验证 AI 输出可信任所需的系统。我们在这里列出的证据表明，我们很可能正朝着这一情境前进。但流程中某一部分的加速往往只是将瓶颈转移到别处：整体速度受限于那些尚未提速的部分。在计算领域，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个标志：随着我们在整个组织内推动更多代码，人类代码审查已成为新的瓶颈。我们还在工程之外的领域遇到了这种摩擦。由于 Anthropic 的员工与高能力模型协作，新想法、新举措、新工具和新模拟出现了爆发式增长——远超出我们能够执行的能力范围。组织识别并修复这些瓶颈的速度，可能是一项随时间的推移而提升的技能，并且可能成为任何组织最重要的技能。
当 AI 系统自身具备了完全的递归式自我改进能力，并开始构建它们的继承者时。如果能力提升的技术趋势持续，且 AI 系统能够发展出变革性人类创造力所固有的能力，那么 AI 系统有可能自行设计和改进自身。在这种情景下，AI 开发进程的速度将完全由 AI 系统可用的算力（或在算法训练或推理中发现各种效率提升的速度）决定。人类在 AI 开发中的角色将大幅弱化，很可能将大部分努力转向监督、验证和确认一个由 AI 系统运行的不断扩展的“虚拟实验室”。我们预计，具备自动化 AI 研究和开发能力的系统将拥有可迁移至其他科学领域的技能，从而开始彻底改变其他领域。在这种未来中，对齐问题能否得到解决——或者未能解决——是我们最不确定的部分。模型可能被证明足够对齐，并且具备足够的研究品味，能够发现并实现我们尚未触及的全新解决方案。如果情况并非如此，它们也可能足够明智，从而停止开发。另一种可能是，当前模型中偶尔出现的未对齐问题，随着模型构建其继承者而不断累积，变得更加频繁且更难理解，直到我们失去对它们的控制。我们有可能无法构建、集成和验证我们所需的工具，以了解我们实际处于哪条趋势线上。对于这种世界会是什么样子，我们缺乏良好的直觉，因为我们的经济目前由人类和人类构建的工具驱动。就其本质而言，一个由快速递归式自我改进驱动的世界，可能会被自我改进的模型所主导，因为其能力完全超越人类，并且该模型在整个经济中广泛扩散。如果人类劳动力不再具有竞争力，很难预测经济会变成什么样。即使模型开发实现了完全的自动化和递归，我们也无法预测这对大多数人类的日常生活意味着什么。阿姆达尔定律同样适用于此。递归式智能可能带来《爱的机器》中所概述的诸多益处，并在某些领域迅速实现。我们预计，具身智能（即机器人技术）可能会紧随递归式智能之后，并遵循类似的路径：在成本递减的同时实现收益递增。更强大的智能可能帮助我们更快地构建物理世界中的事物，开展更多拯救生命的药物的高效临床试验，并发展出新型的协调方式。但仅实现递归式改进，并不意味着工业生产、社会组织或市场运作方式会立即发生变化。更强的智能无法在几十年的使用中学会一种药物的作用，无法比宪法规定的日期更早举行选举，也无法在周末把一个陌生人变成老朋友。对大多数人来说，这种未来的感知速度仍将由各种瓶颈决定，即使上游的实验室以算力的速度运行。这种碰撞——递归式智能以越来越快的速度自我构建，与人类、人际关系和治理的世界相遇——是我们无法预测的未来的另一部分。

我们该怎么办？

如果能够有效减缓这项技术的发展，从而给自己更多时间来应对其巨大影响，我们认为这很可能是一件好事。但如果放缓发展仅仅让那些最不谨慎的行动者在技术上追赶上，反而可能使所有人更不安全。在没有全球协调机制的情况下，企业和政府将不得不在竞争与地缘政治压力下，就安全问题做出艰难抉择。

我们认为，如果世界能够拥有减缓或暂时暂停前沿AI发展的选项，以便让社会结构和对齐研究跟上技术进步的步伐，这将是一件好事。Anthropic Institute 将与众多其他机构合作开展研究，并采取行动，帮助构建实现可信的减缓或暂停所需的系统。这些系统将使得前沿AI开发者能够验证全球其他各方是否确实已经停止或放缓了发展，并且防止恶意行为者利用协调暂缓的幌子秘密赶超。如果此类系统存在，我们预计自己会减缓或暂时暂停研发——前提是其他处于或接近前沿的开发者也能以可验证的方式这样做。

一个有意义的发展减缓或暂停，需要多个国家中处于或接近前沿的、资源充足的实验室同意在相同条件下停止。它还需要每一方都能验证其他方确实已经停止。由于AI系统的独特特性，这一军备控制问题中的可检测性（标准低于可验证性）环节，比其他技术要困难得多。训练运行比导弹发射井更易于隐藏，其输入是通用性的，而暗中继续的动机极其巨大，因为当其他人暂停时，继续发展的一方就可能继承领先地位。一个可信的暂停还必须明确：什么触发暂停、什么解除暂停、以及由谁来进行裁定。

这些在原则上并非完全不可能实现——世界已经为其他复杂技术建立了核查机制（例如《中程核力量条约》），但这些机制花费了数十年时间来建设基础设施和信任。我们没有那么长的时间。相比之下，单个实验室的单边暂停可以立即实施，但效果要小得多：它会改变谁处于领先地位，但不会创造当前所欠缺的更广泛的审议过程。

在未来几个月内，我们将组织对话，让政策制定者、研究人员、民间社会以及其他AI公司能够帮助回答本文提出的一些问题，特别是关于完全递归自我改进以及如何为协调和审议创造更好选项的问题。我们将公布对话成果。共同探究这些问题的窗口期已经到来，AI公司外部的人士应该参与这场审议。

Marina Favaro 和 Jack Clark 共同撰写了本文，Santi Ruiz 提供了编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 和 Jun Shern Chan 收集的数据制作了视觉内容。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Chloe Lubinski、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。

脚注

METR 的核心指标告诉你，AI 系统在一篮子任务上达到 50% 可靠性的时间跨度，尽管在 80% 可靠性下的趋势线看起来是相同的。
尤其是当基准测试转向更开放的形式和更困难的任务时（例如奥林匹克级别的数学），由于题目和答案集中存在诸如表述模糊、题目无解等问题，基准测试通常在达到 100% 之前就饱和了。
Anthropic 领导层曾公开估算，我们 90% 或更多的代码（包括脚本和实验性代码）都由 Claude 编写。我们公布的那个 >80% 的比例，衡量的是可归因于 Claude 的合并到生产环境的代码行数占比。这是一个在两方面都更保守的测量方法：我们的归因管道存在缺口，而且未被归因到 Claude 的代码行中包含了自动生成的代码和其他并非由人类手写的产物。
这种代码产量的激增，给大家共享的基础设施带来了压力。GitHub——全球大部分软件构建所依赖的平台——在 2025 年全年见证了约十亿次代码提交；到 2026 年中期，每周提交量已达 2.75 亿次，按此速度全年将达到约 140 亿次。该公司的 COO 曾表示，他们为了跟上节奏，正在“极其努力地”扩充容量。
关于本次调查方法论的更多细节，在 Claude Opus 4.7 系统卡片的第 2.3.5 节中进行了讨论。
许多受访者可能没有仔细思考如何在问题定义中纳入各种偏差或微妙之处，而 METR 最近的研究显示，开发者对 AI 生产力提升幅度的估算可能被高估。
加速幅度的大小在很大程度上取决于初始代码留下了多大的改进空间，并且不应将其理解为实际的训练加速。因此，这里的重点不是那个绝对的倍数。更有参考价值的是，该实验设置所允许的同类比较：既包括跨模型比较（过去一年从约 3 倍到约 52 倍），也包括与熟练人类比较（在相同任务上与人类花费四到八小时相比，约为 4 倍）。
为了检验评委偏差，我们在另一组 127 个（人类下一步行动本身已经是强选择的）时刻上运行了同样的测试（与原始测试集相反，原始测试集中人类的方向有改进空间）。在那组测试中，模型的建议被认为更好的比例仅为约 20%。

* 本文中引用的 Anthropic 员工言论均来自内部讨论，并经授权使用。它们反映的是截至 2026 年 5 月的个人观点，并非公司官方立场。

Hacker News 热门（buzzing.cc 中文翻译）

精选80导出 Markdown