Berryxia.AI@berryxia

2026-05-12 06:57·52天前

AI 摘要

Artificial Analysis发布Coding Agent指数，首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示，Opus 4.7在Cursor CLI上以61分领先，开源模型GLM-5.1最佳为53分，但仍落后顶尖闭源模型。成本与效率差异显著：每任务成本最高相差30多倍，耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异，为开发者选择编码助手提供了实用参考。

Artificial Analysis 最近出了一个 Coding Agent Index，我一看就觉得这榜单做得挺实在。

他们这次不是只测单个模型，而是把「模型 + harness」（比如 Cursor CLI、Claude Code、Codex、Gemini CLI 这些实际编码环境）组合在一起测，用的三个真实编码基准：SWE-Bench-Pro-Hard-AA（150 个前沿模型都难搞的任务）、Terminal-Bench v2（84 个终端操作任务）和 SWE-Atlas-QnA（124 个代码行为分析题）。

结果出来后挺有意思： Opus 4.7 在 Cursor CLI 上拿了 61 分排第一，GPT-5.5 在 Codex 和 Opus 4.7 在 Claude Code 都拿到 60 分，紧随其后。GPT-5.5 在 Cursor CLI 也到了 58 分。

开源模型表现也不差，GLM-5.1 在 Claude Code 拿到 53 分，是开源里最高的，Kimi K2.6 和 DeepSeek V4 Pro 也都到 50 分，不过跟顶尖闭源模型还是有明显差距。

Gemini 3.1 Pro 在自己家的 Gemini CLI 上只拿到 43 分，比它在普通智能榜上的表现差不少，看来 harness 拖了后腿。

成本和效率差异也拉得很大：每任务成本差了 30 多倍，最便宜的是 Cursor 的 Composer 2（0.07 美元/任务），最贵的是 GPT-5.5 在 Codex（2.21 美元）和 GLM-5.1（2.26 美元）；

每任务耗时差了 7 倍，Opus 4.7 在 Claude Code 最快只要 6 分钟左右，Kimi K2.6 最慢要 40 分钟。token 用量也差了 3 倍多。

这波榜单真正把开发者日常选工具的完整链路测出来了，对想挑 coding agent 的同学来说，值得去他们官网仔细看一眼。

链接在这：https://artificialanalysis.ai/agents/coding-agents

Artificial AnalysisAnnouncing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent harnesses and models perform on 3 leadi...

智能体编码评测/基准

在 X 查看原推

Berryxia.AI@berryxia · X

59导出 Markdown

2026-05-12 06:57·52天前

在 X 看原推· x.com

AI 摘要

Artificial Analysis 最近出了一个 Coding Agent Index，我一看就觉得这榜单做得挺实在。

开源模型表现也不差，GLM-5.1 在 Claude Code 拿到 53 分，是开源里最高的，Kimi K2.6 和 DeepSeek V4 Pro 也都到 50 分，不过跟顶尖闭源模型还是有明显差距。

Gemini 3.1 Pro 在自己家的 Gemini CLI 上只拿到 43 分，比它在普通智能榜上的表现差不少，看来 harness 拖了后腿。