DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。
Damn,DeepSWE 这个新基准有一件事让我想明白了:以前的顶级模型可能没我们想的那么强🤔
而且我感觉这次AI 编码评测好像出了个超狠的东西,我觉得老基准可能全测错了。
以前 SWE-Bench 上,顶级模型分数全挤在 54%-64%,看起来半斤八两, 但 DeepSWE 不一样,不是单纯的考你改一行代码,它会让你真干活:找文件、复现 bug、改完验证、处理边缘 case。 @theo 说这是他第一次感觉和日常写代码体验对上了的基准。
经过这么一测,差距直接炸开:GPT-5.5 是 70%,Claude Opus 是 54%,其他直接腰斩。
最狠的还不是分数差距 他们用一个很简单的 mini-swe-agent 去跑,结果和各大 lab 自己调了半天的官方工具差不多。
这意味着很多好成绩不是模型强,是 prompt 工程刷的。 但是DeepSWE 不给你准备时间,直接来,差距一下子就出来了。
以前是大家都化好妆站一排,现在是直接掀帘子进浴室🤣
所以我自己的判断是:
- 以后看模型真实 coding 能力,多看一眼这种长任务基准,少看短平快刷分榜
- 选开发工具时,别看它主页上标的分,自己扔一个真 bug 让它改,改完跑通才算