Hacker News 热门(buzzing.cc 中文翻译)
精选71
为什么 SWE-bench Verified 不再衡量前沿编码能力
精选理由
OpenAI 亲自给 SWE-bench Verified 判了死刑,这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想,你的 benchmark 体系是不是也该换了。
AI 摘要
OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建,其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升,基准测试集趋于饱和,区分度下降,现有模型表现已接近人类水平。因此,团队将转向更具挑战性和现实复杂度的新评估方法。
AI 翻译 · 中文
为什么SWE-bench Verified 不再衡量前沿编码能力(openai.com)