Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。
Cognition 推出「FrontierCode」:把 Coding 评估标准,从可用,提升到高质量、可合并! 评估结果 Top2:Claude Opus 4.8、GPT-5.5 https://cognition.ai/blog/frontier-code
FrontierCode 评估内容 规模与结构: · 150 个任务,来自 36 个 flagship 开源仓库 · 20+ 维护者参与,每任务投入 40+ 小时 · 三层嵌套难度:Extended(150)→ Main(100 最难)→ Diamond(50 最难)
两个核心指标: · Pass rate:通过全部 blocker 标准(维护者眼中的 hard stop) · Score:rubric 加权得分;任一 blocker 失败则 score = 0
评测体系:不止 unit test FrontierCode 沿六个维度评估 mergeability: · 行为正确性 - 是否解决问题 · 回归安全 - 是否破坏现有功能 · 机械整洁 - build / lint / style 是否通过 · 测试质量 - agent 写的测试是否真测到行为 · Scope 纪律 - 是否只改该改的 · 代码质量 - 风格、设计模式、可读性、仓库惯例