meng shao@shao__meng

2026-06-05 08:31·27天前

AI 摘要

Anthropic 发布报告显示，Claude 正被深度用于开发下一代 AI，趋势加速或导致系统自主设计后继版本。外部指标：模型可靠完成任务时长约每 4 个月翻倍，SWE-bench 两年内饱和，CORE-Bench 15 个月内饱和，长时任务达 16 小时。内部数据：截至 2026 年 5 月超 80% 主干代码由 Claude 撰写；工程师日均合并代码量是 2024 年的 8 倍；员工中位数估计产出为无 AI 时的 4 倍；实验执行从约 3x 提升至约 52x；自主研究恢复能力达人类两组研究者一周工作量的 97%（人类约 23%）；研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

Anthropic 发布关于「AI 递归自我改进」的研究报告

Anthropic 内部以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI 系统。这种 "AI 构建 AI" 的趋势正在加速。如果继续发展，可能出现系统完全自主设计并训练自身后继版本的情形--即递归自我改进。 https://www.anthropic.com/institute/recursive-self-improvement

关键证据（"外部公开基准"和"Anthropic 内部数据"）

1. 外部能力指标 · 模型可靠完成的任务时长正以约每 4 个月翻倍的速度增长（此前是每 7 个月）。 · SWE-bench 两年内从个位数分数趋于饱和。 · CORE-Bench 15 个月内从约 20% 饱和。 · 长时任务能力已达 16 小时量级。

2. 内部工程与研发数据 · 代码产出：截至 2026 年 5 月，Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写；2026 年 Q2，工程师日均合并代码量是 2024 年的 8 倍。 · 主观感知：2026 年 3 月内部调研（130 名员工）中，受访者中位数估计自身产出约为无 AI 时的 4 倍。 · 代码质量：2025 年末 Claude 代码仍略逊于人类，如今已接近持平，并预计年内反超；人类审查已形成新瓶颈（阿姆达尔定律）。 · 实验执行：在给定目标的代码加速任务中，Claude 从 2025 年 5 月的约 3x 提升至 2026 年 4 月的约 52x；同等任务人类专家通常仅达 4x。 · 自主研究：2026 年 4 月，Claude Agent 端到端完成了一项 AI 安全开放研究问题，独立提出假设、设计实验、迭代结论，恢复能力达到人类两组研究者一周工作量的 97%（人类仅约 23%）。 · 研究判断：在 129 个真实开放调研场景中，Claude 在"下一步该怎么做"上优于人类原选择的比例从 2025 年 11 月的 51% 升至 2026 年 4 月的 64%。

结构性观察人类在 AI 研发流程中的角色正在逐层收缩： · 执行层（写代码、跑实验）已高度自动化； · 方向层（选择研究问题、判断结果可信度、识别死胡同）目前仍是人类比较优势，但这一优势正在收窄。

即使"研究品味"永远无法被 AI 掌握，只要人类只保留极少量方向性工作，而 AI 承担其余部分，整体研发速度仍会呈复合加速。

三种未来情景 · 趋势停滞：边际收益递减、算力/能源供给受限、新架构尚未出现；作者认为不太可能，但会给社会最多适应时间 · 持续自动化，人类仍掌方向：100 人公司可相当于万人组织；人类瓶颈转向审核与协调；作者认为最可能进入此情景 · 完整递归自我改进：AI 自主设计后继系统，人类角色转为监督与验证；科技进步完全由算力决定；最不确定、风险最高

AnthropicOur internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI autonomously building a more capable successo...

智能体

meng shao@shao__meng · X

65导出 Markdown

2026-06-05 08:31·27天前

在 X 看原推· x.com

AI 摘要

Anthropic 发布关于「AI 递归自我改进」的研究报告

关键证据（"外部公开基准"和"Anthropic 内部数据"）