Artificial Analysis@ArtificialAnlys

精选

2026-03-31 16:37·93天前

精选理由

快手发布 KAT-Coder-Pro V2，非推理架构实现 44 分智能指数，Agent 能力跃升 40 个百分点，成本仅为 Claude Sonnet 的 5%。

AI 摘要

KwaiKAT发布非推理代码模型KAT-Coder-Pro V2，在Artificial Analysis Intelligence Index获44分，较V1提升8分，与Claude Sonnet 4.6持平。该模型token效率显著，运行仅需约9M输出token，远低于Claude系列及DeepSeek等推理模型。Agent能力大幅提升，Terminal-Bench Hard得分49%（提升40个百分点），匹配Claude Opus 4.6。成本降至73美元，响应速度达109 token/秒。但在长上下文推理和知识回忆方面较V1有所退步。

AI 翻译 · 中文

KwaiKAT 发布了 KAT-Coder-Pro V2，这是一款非推理模型，在 Artificial Analysis Intelligence Index 上得分为44分，比 KAT-Coder-Pro V1 提高了8分。

@KwaiAICoder 通过发布 KAT-Coder-Pro V2 更新了其旗舰专有代码模型。KAT-Coder-Pro V2 在 Artificial Analysis Intelligence Index 上取得了44分，与 Claude Sonnet 4.6（非推理）持平，在非推理模型中仅次于 Claude Opus 4.6（非推理，46分）。在约900万输出 token 的情况下，它也比 Claude Opus 4.6（约1100万）、Claude Sonnet 4.6（约1400万）以及具有类似智能水平的推理模型如 DeepSeek V3.2（推理，约6100万）和 Qwen3.5 397B A17B（推理，约8600万）更具 token 效率。

KAT-Coder-Pro V2 是一款非推理模型，不同于当前所有在回答前会“思考”的前沿大语言模型。通常，推理变体在 Intelligence Index 上的得分高于其非推理对应版本，但会消耗更多输出 token，且不太适合对延迟敏感的工作负载。

关键要点：

➤ 🧠 总体智能提升，但在长上下文推理和知识召回方面出现退步：KAT-Coder-Pro V2 在 Artificial Analysis Intelligence Index 上得分为44分，比 KAT-Coder-Pro V1 提高了8分，与 Claude Sonnet 4.6（非推理，最大努力）持平。它在工具使用方面表现良好（Tau2-Telecom 上90%），但在长上下文推理和知识方面相比 KAT-Coder-Pro V1 出现退步，在 AA-LCR 上下降8个百分点（66%），在 HLE 上下降17个百分点（16%）。

➤ 🤖 智能体能力提升：KAT-Coder-Pro V2 在我们的智能体评估中展现出重大提升。在 Terminal-Bench Hard 上，它得分为49%，比 KAT-Coder-Pro V1 提高了40个百分点，使其成为得分最高的非推理模型，与 Claude Opus 4.6（非推理，49%）持平，并领先于 Claude Sonnet 4.6（非推理，46%）。KAT-Coder-Pro V2 在 GDPval-AA 上也显示出提升，得分为1123（比 V1 提高了304 Elo），但仍落后于 DeepSeek V3.2（1198）和 Qwen3.5 397B A17B（1202）等模型。

➤ ⚙️ 高模型 token 效率：KAT-Coder-Pro V2 是一款非推理模型，在同等智能水平的模型中，使用的模型 token 数量更少。它在 Artificial Analysis 智能指数上运行需要 870 万输出 token，低于 Claude Opus 4.6（非推理，约 1100 万）和 Claude Sonnet 4.6（非推理，约 1400 万），不过这一数字是其前代产品 KAT-Coder-Pro V1（约 450 万）的约 2 倍。它也比同等智能水平的推理模型（如 DeepSeek V3.2（推理，约 6100 万）和 Qwen3.5 397B A17B（推理，约 8600 万））使用的模型 token 显著更少。

➤ $ 更优的成本效率：KAT-Coder-Pro V2 运行 Artificial Analysis 智能指数需要花费 73 美元，较 V1 的 76 美元有所下降，原因是它在智能体评测中所需的交互轮次更少，从而减少了输入 token 的使用。这使得它在同等智能水平模型中成为成本效率最高的模型之一，成本低于 Qwen3.5 397B A17B（推理，418 美元）和 Claude Sonnet 4.6（非推理，1397 美元）。KAT-Coder-Pro V2 目前在 StreamLake 和 AtlasCloud API 端点上的定价为每 100 万输入/输出 token 分别为 0.30 美元/1.20 美元。

➤ ⚡ 低端到端响应时间：KAT-Coder-Pro V2 的运行速度约为每秒 109 个输出 token，远超 Claude Opus 4.6（非推理，39 OTPS）和 Claude Sonnet 4.6（非推理，43 OTPS）。由于它没有推理延迟，首 token 时间也很短，因此能提供最快的端到端响应时间之一（该指标衡量从发送请求到返回最终输出所花费的时间）。

模型详情：

➤ 可用性：KAT-Coder-Pro V2 可通过 StreamLake 和 AtlasCloud API 端点使用 ➤ 上下文窗口：256K 模型 token（与 KAT-Coder-Pro V1 相同） ➤ 多模态能力：仅限文本输入和输出

Artificial Analysis@ArtificialAnlys · X

精选导出 Markdown