AYi@AYi_AInotes

2026-05-27 19:11·36天前

AI 摘要

DeepSWE新基准模拟了真实的长链编程任务，如定位文件、复现bug和验证修复，挑战了旧有基准的局限性。测试显示，在顶级模型上分数差异模糊的SWE-Bench，被新基准拉开了差距：GPT-5.5达到70%，而Claude Opus为54%。研究发现，使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩，表明许多高分可能源于提示词工程。该基准作者@theo评论称，这是首个与真实编码体验相符的评测。

Damn，DeepSWE 这个新基准有一件事让我想明白了：以前的顶级模型可能没我们想的那么强🤔

而且我感觉这次AI 编码评测好像出了个超狠的东西，我觉得老基准可能全测错了。

以前 SWE-Bench 上，顶级模型分数全挤在 54%-64%，看起来半斤八两，但 DeepSWE 不一样，不是单纯的考你改一行代码，它会让你真干活：找文件、复现 bug、改完验证、处理边缘 case。 @theo 说这是他第一次感觉和日常写代码体验对上了的基准。

经过这么一测，差距直接炸开：GPT-5.5 是 70%，Claude Opus 是 54%，其他直接腰斩。

最狠的还不是分数差距他们用一个很简单的 mini-swe-agent 去跑，结果和各大 lab 自己调了半天的官方工具差不多。

这意味着很多好成绩不是模型强，是 prompt 工程刷的。但是DeepSWE 不给你准备时间，直接来，差距一下子就出来了。

以前是大家都化好妆站一排，现在是直接掀帘子进浴室🤣

所以我自己的判断是：

以后看模型真实 coding 能力，多看一眼这种长任务基准，少看短平快刷分榜
选开发工具时，别看它主页上标的分，自己扔一个真 bug 让它改，改完跑通才算

现在新基准这面照妖镜举起来了，后面刷分的怕是要睡不着了 hhh

Theo - t3.ggThis is the first code bench that actually aligns with how it feels to use these models coding.

Anthropic OpenAI 编码评测/基准

在 X 查看原推导出 Markdown

AYi@AYi_AInotes · X

62导出 Markdown