Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。
Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。
Claude Opus 4.8 是目前最好的编码模型,这件事应该没啥太大争议了,我自己跑了这么久体感也是这样。
Cognition(Devin 的公司)刚发布的 FrontierCode 基准测试,彻底改变了 AI 编程能力的评判标准: 不再只看"代码能不能跑过测试",核心看看"维护者会不会愿意把这段代码合并进真实项目"。
以前的基准有多离谱?(黑人问号脸.jpg)
以前最火的评测叫 SWE-Bench,还有 TerminalBench 等, • 模型只要让测试通过就算"解决"了。 • 但 METR_Evals 研究发现:超过一半 通过测试的代码,其实是不可维护的垃圾代码(slop)--风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge(合并)。