Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试
阅读原文· senior-swe-bench.snorkel.ai这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。
高级 SWE-Bench
我们把 AI 智能体当作高级工程师来对待,那为什么还像评估初级工程师一样评估它们?
高级工程师在没有过度细化需求的情况下构建功能
高级 SWE-Bench 的功能任务包含现实指令,读起来像自然语言消息,而不是过度细化的需求。为了可靠地评估这些任务,我们引入了一个验证智能体,它使用专家设计的配方来编写行为测试,这些测试能够适应提交的解决方案。
高级工程师解决需要根据行为报告进行运行时调查的缺陷
高级 SWE-Bench 的缺陷任务反映了棘手的用户报告,并侧重于调查,从启动服务到调试微妙的运行时问题。这些任务源自那些需要大量运行时调查才能解决的 PR(例如日志、性能分析数据、复现步骤)。
高级工程师不需要别人告诉,就能交付正确的代码
高级 SWE-Bench 通过将运行时正确性测试与多个基于观察到的代码库实践的质量指标相结合,来评判优雅的解决方案。此外,验证器和验证过程还能针对指令中未明确说明但具有关键性的代码库实践进行测试。
排行榜
- 1Claude Opus 4.8Mini-SWE-Agent · max24.0%
- Claude Sonnet 5Mini-SWE-Agent · max19.4%
- 2GPT-5.5Mini-SWE-Agent · xhigh16.0%
- 3Claude Opus 4.7Mini-SWE-Agent · max14.1%
- 4GPT-5.4Mini-SWE-Agent · xhigh14.0%
- 5GLM-5.2Mini-SWE-Agent · max12.5%
- 6Kimi K2.6Mini-SWE-Agent · default8.2%
- 7Claude Sonnet 4.6Mini-SWE-Agent · high8.2%
- 8Gemini 3.1 ProMini-SWE-Agent · high6.1%
- 9Gemini 3.5 FlashMini-SWE-Agent · medium3.0%
| # | 模型 | 算力 | 解决率 (pass@1) |
|---|---|---|---|
| 1 | Claude Opus 4.8 | max | 24.0% |
| Claude Sonnet 5 | max | 19.4% | |
| 2 | GPT-5.5 | xhigh | 16.0% |
| 3 | Claude Opus 4.7 | max | 14.1% |
| 4 | GPT-5.4 | xhigh | 14.0% |
| 5 | GLM-5.2 | max | 12.5% |
| 6 | Kimi K2.6 | default | 8.2% |
| 7 | Claude Sonnet 4.6 | high | 8.2% |
| 8 | Gemini 3.1 Pro | high | 6.1% |
| 9 | Gemini 3.5 Flash | medium | 3.0% |
顶尖前沿模型在超过 75% 的情况下未能以资深级别的正确性和品味完成任务。
任务
高级 SWE-Bench 任务来源于各类仓库中的 PR,这些仓库涵盖从库到多服务应用程序,由各自仓库中拥有数百次提交的工程师编写。我们专注于多阶段、多栈的功能性 PR,以及需要大量运行时排查的错误/性能 PR。有关任务设计的更多信息,请阅读博客文章。
更自然的不明确指令
高级 SWE-Bench 任务反映了与智能体进行自然交流的方式,其中位指令长度仅为 SWE-Bench Pro 的 31%。
更多样化的任务范围
高级 SWE-Bench 功能任务可以跨越多个服务,每个功能任务平均涉及 11 个文件。
更长的任务周期
高级 SWE-Bench 任务被设计为长周期任务,即使是最强的智能体也需要数百个步骤才能完成。
更自然的不明确指令
高级 SWE-Bench 任务反映了与智能体进行自然交流的方式,其中位指令长度仅为 SWE-Bench Pro 的 31%。
更多样化的任务范围
高级 SWE-Bench 功能任务可以跨越多个服务,每个功能任务平均涉及 11 个文件。
更长的任务周期
高级 SWE-Bench 任务被设计为长周期任务,即使是最强的智能体也需要数百个步骤才能完成。
参考解决方案的 SLOC 和文件数量在三个基准测试中采用相同的测量方式。指令长度不包括测试框架的样板代码。其他基准测试的 token 数量和步骤数量基于其自行报告的指标。