Anthropic示警：AI执行力逼近甚至超过人类，方向把控等方面人类仍具优势

2026-06-10 13:40·22天前

AI 摘要

Anthropic于6月5日发布博文称，AI正加速自身研发，走向递归自我改进。能力上，Claude独立完成任务时长约每4个月翻倍：Claude Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约1.5小时，Opus 4.6（2026年3月）达12小时；Mythos Preview连续工作至少16小时。SWE-bench成绩2年内从个位数逼近饱和。截至2026年5月，Anthropic超80%合入代码由Claude编写，工程师人均日代码量较2024年增8倍。2026年4月Claude完成超800项修复，将一类API错误压至1/1000。文章强调人类优势仍在研究判断与方向把控，AI执行逼近甚至超过人类。

原文

IT之家 6 月 10 日消息，Anthropic 于 6 月 5 日发布博文，指出人工智能（AI）已开始加速 AI 本身研发，正迈步走向递归自我改进。

IT之家注：递归自我改进（recursive self-improvement）是指 AI 系统能够自主设计、训练、评估并迭代自己的下一代版本，形成“自己改进自己”的闭环。

这一概念被视为 AI 发展中的关键分水岭，一旦闭环成立，技术进步速度可能更多取决于算力、基础设施与验证机制，而不再主要受限于人工研发节奏。

该博文强调这一阶段尚未到来，也并非必然发生，但相关信号已比多数机构准备得更早、更强。

首先是能力加速。Anthropic 援引公开基准称，AI 可稳定独立完成任务的时长约每 4 个月翻倍：

2024 年 3 月，Claude Opus 3 可完成约 4 分钟的软件任务；

2025 年 3 月，Claude Sonnet 3.7 可处理约 1.5 小时任务；

2026 年 3 月，Claude Opus 4.6 已能处理 12 小时任务。

在公开基准上，模型进步也很快。SWE-bench 衡量真实软件工程修复能力，模型在 2 年内从个位数成绩逼近饱和。

CORE-Bench 测试复现实验论文结果的能力，AI 在 2024 年约 20% 的成功率，在 15 个月后已接近饱和。METR 还发现，Claude Mythos Preview 连续工作时长至少达到 16 小时，已接近现有任务集可测上限。

在 Anthropic 内部，截至 2026 年 5 月，超过 80% 的合入代码由 Claude 编写；在 Claude Code 于 2025 年 2 月进入研究预览前，这一比例还只是个位数。

随着模型从代码建议走向自主运行与长时任务处理，工程师人均日合入代码量明显抬升，2026 年 Q2 典型工程师较 2024 年达到 8 倍。不过文中也提醒，代码行数偏重数量，不能等同真实生产率。

除代码产出外，Claude 在执行复杂任务上的效果也更强。Anthropic 员工 2026 年 3 月一项覆盖 130 人的调查显示，受访者估计在 Mythos Preview 帮助下，产出中位数约为无 AI 时的 4 倍。

2026 年 4 月，Claude 还完成超过 800 项修复，将一类 API 错误压低到原来的 1/1000，负责监督的工程师估计，若纯靠人工可能要花 4 年。

Anthropic 文章反复强调，当前人类优势仍集中在研究判断、问题选择、结果信任与方向把控上。当前 AI 在“执行”上逼近甚至超过人类，但在“决定做什么”上仍有差距。

Anthropic 还透露 AI 自我改进并不会凭空爆发，它仍受算力约束。即便 Claude 能写更多代码，企业若想把这种闭环推向更高强度，仍需要更大规模计算资源。

IT之家（RSS）

64导出 Markdown