AYi@AYi_AInotes FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。