Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。
这个榜单的维度有点意义啊! 很具有模型的真实水平的表现参考意义!
国产模型排名最高的是GLM-5,位居第8! 但不是5.1 ,其次是Kimi、Minmax 。
重构代码才是真正把AI agent拉下神坛的终极考验。
Scale AI今天发布SWE Atlas的最终榜单「Refactoring」,专门测agent能不能把代码大规模重构却不把系统搞崩。
结果Claude Opus 4.7配合Claude Code直接拿下第一。
这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍,难度直接干到顶。
即使是前沿agent,能写出能跑的功能重构,却经常在专业评审里翻车。
留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。
这才是最扎心的真相:
写新功能容易,干净优雅地重构老代码难十倍。
真正顶级的agent,不光要会生代码,更要会"修代码"。