# 重构代码成AI终极考验，Scale AI发布SWE Atlas最终榜单

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-08 07:30
- AIHOT 分数：59
- AIHOT 链接：https://aihot.virxact.com/items/cmow664ff0359slcxw013q0en
- 原文链接：https://x.com/berryxia/status/2052531651545301309

## AI 摘要

Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

## 正文

这个榜单的维度有点意义啊！
很具有模型的真实水平的表现参考意义！

国产模型排名最高的是GLM-5，位居第8！
但不是5.1 ，其次是Kimi、Minmax 。

重构代码才是真正把AI agent拉下神坛的终极考验。

Scale AI今天发布SWE Atlas的最终榜单「Refactoring」，专门测agent能不能把代码大规模重构却不把系统搞崩。

结果Claude Opus 4.7配合Claude Code直接拿下第一。

这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍，难度直接干到顶。

即使是前沿agent，能写出能跑的功能重构，却经常在专业评审里翻车。

留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。

这才是最扎心的真相：

写新功能容易，干净优雅地重构老代码难十倍。

真正顶级的agent，不光要会生代码，更要会"修代码"。

### 引用推文

> Scale Labs：Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate test of an agent's ability to restructure ...
