Berryxia.AI@berryxia

2026-05-08 07:30·56天前

AI 摘要

Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

这个榜单的维度有点意义啊！很具有模型的真实水平的表现参考意义！

国产模型排名最高的是GLM-5，位居第8！但不是5.1 ，其次是Kimi、Minmax 。

重构代码才是真正把AI agent拉下神坛的终极考验。

Scale AI今天发布SWE Atlas的最终榜单「Refactoring」，专门测agent能不能把代码大规模重构却不把系统搞崩。

结果Claude Opus 4.7配合Claude Code直接拿下第一。

这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍，难度直接干到顶。

即使是前沿agent，能写出能跑的功能重构，却经常在专业评审里翻车。

留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。

这才是最扎心的真相：

写新功能容易，干净优雅地重构老代码难十倍。

真正顶级的agent，不光要会生代码，更要会"修代码"。

Scale LabsToday we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate test of an agent's ability to restructure ...

Anthropic 编码评测/基准

在 X 查看原推

Berryxia.AI@berryxia · X

59导出 Markdown