Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Anthropic 发布关于「AI 递归自我改进」的研究报告
Anthropic 内部以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI 系统。这种 "AI 构建 AI" 的趋势正在加速。如果继续发展,可能出现系统完全自主设计并训练自身后继版本的情形--即递归自我改进。 https://www.anthropic.com/institute/recursive-self-improvement
关键证据("外部公开基准"和"Anthropic 内部数据")
1. 外部能力指标 · 模型可靠完成的任务时长正以约每 4 个月翻倍的速度增长(此前是每 7 个月)。 · SWE-bench 两年内从个位数分数趋于饱和。 · CORE-Bench 15 个月内从约 20% 饱和。 · 长时任务能力已达 16 小时量级。
2. 内部工程与研发数据 · 代码产出:截至 2026 年 5 月,Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写;2026 年 Q2,工程师日均合并代码量是 2024 年的 8 倍。 · 主观感知:2026 年 3 月内部调研(130 名员工)中,受访者中位数估计自身产出约为无 AI 时的 4 倍。 · 代码质量:2025 年末 Claude 代码仍略逊于人类,如今已接近持平,并预计年内反超;人类审查已形成新瓶颈(阿姆达尔定律)。 · 实验执行:在给定目标的代码加速任务中,Claude 从 2025 年 5 月的约 3x 提升至 2026 年 4 月的约 52x;同等任务人类专家通常仅达 4x。 · 自主研究:2026 年 4 月,Claude Agent 端到端完成了一项 AI 安全开放研究问题,独立提出假设、设计实验、迭代结论,恢复能力达到人类两组研究者一周工作量的 97%(人类仅约 23%)。 · 研究判断:在 129 个真实开放调研场景中,Claude 在"下一步该怎么做"上优于人类原选择的比例从 2025 年 11 月的 51% 升至 2026 年 4 月的 64%。