为什么 SWE-bench Verified 不再衡量前沿编码能力

2026-04-27 01:45·55天前·kmdupree

精选理由

OpenAI 亲自给 SWE-bench Verified 判了死刑，这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想，你的 benchmark 体系是不是也该换了。

AI 摘要

OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建，其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升，基准测试集趋于饱和，区分度下降，现有模型表现已接近人类水平。因此，团队将转向更具挑战性和现实复杂度的新评估方法。

AI 翻译 · 中文

为什么SWE-bench Verified 不再衡量前沿编码能力（openai.com）

OpenAI大佬观点编码评测/基准

阅读原文

Hacker News 热门（buzzing.cc 中文翻译）

精选71