Artificial Analysis发布Coding Agent指数,首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示,Opus 4.7在Cursor CLI上以61分领先,开源模型GLM-5.1最佳为53分,但仍落后顶尖闭源模型。成本与效率差异显著:每任务成本最高相差30多倍,耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异,为开发者选择编码助手提供了实用参考。
Artificial Analysis 最近出了一个 Coding Agent Index,我一看就觉得这榜单做得挺实在。
他们这次不是只测单个模型,而是把「模型 + harness」(比如 Cursor CLI、Claude Code、Codex、Gemini CLI 这些实际编码环境)组合在一起测,用的三个真实编码基准:SWE-Bench-Pro-Hard-AA(150 个前沿模型都难搞的任务)、Terminal-Bench v2(84 个终端操作任务)和 SWE-Atlas-QnA(124 个代码行为分析题)。
结果出来后挺有意思: Opus 4.7 在 Cursor CLI 上拿了 61 分排第一,GPT-5.5 在 Codex 和 Opus 4.7 在 Claude Code 都拿到 60 分,紧随其后。GPT-5.5 在 Cursor CLI 也到了 58 分。
开源模型表现也不差,GLM-5.1 在 Claude Code 拿到 53 分,是开源里最高的,Kimi K2.6 和 DeepSeek V4 Pro 也都到 50 分,不过跟顶尖闭源模型还是有明显差距。
Gemini 3.1 Pro 在自己家的 Gemini CLI 上只拿到 43 分,比它在普通智能榜上的表现差不少,看来 harness 拖了后腿。
成本和效率差异也拉得很大:每任务成本差了 30 多倍,最便宜的是 Cursor 的 Composer 2(0.07 美元/任务),最贵的是 GPT-5.5 在 Codex(2.21 美元)和 GLM-5.1(2.26 美元);