快手发布 KAT-Coder-Pro V2,非推理架构实现 44 分智能指数,Agent 能力跃升 40 个百分点,成本仅为 Claude Sonnet 的 5%。
KwaiKAT发布非推理代码模型KAT-Coder-Pro V2,在Artificial Analysis Intelligence Index获44分,较V1提升8分,与Claude Sonnet 4.6持平。该模型token效率显著,运行仅需约9M输出token,远低于Claude系列及DeepSeek等推理模型。Agent能力大幅提升,Terminal-Bench Hard得分49%(提升40个百分点),匹配Claude Opus 4.6。成本降至73美元,响应速度达109 token/秒。但在长上下文推理和知识回忆方面较V1有所退步。
KwaiKAT 发布了 KAT-Coder-Pro V2,这是一款非推理模型,在 Artificial Analysis Intelligence Index 上得分为44分,比 KAT-Coder-Pro V1 提高了8分。
@KwaiAICoder 通过发布 KAT-Coder-Pro V2 更新了其旗舰专有代码模型。KAT-Coder-Pro V2 在 Artificial Analysis Intelligence Index 上取得了44分,与 Claude Sonnet 4.6(非推理)持平,在非推理模型中仅次于 Claude Opus 4.6(非推理,46分)。在约900万输出 token 的情况下,它也比 Claude Opus 4.6(约1100万)、Claude Sonnet 4.6(约1400万)以及具有类似智能水平的推理模型如 DeepSeek V3.2(推理,约6100万)和 Qwen3.5 397B A17B(推理,约8600万)更具 token 效率。
KAT-Coder-Pro V2 是一款非推理模型,不同于当前所有在回答前会“思考”的前沿大语言模型。通常,推理变体在 Intelligence Index 上的得分高于其非推理对应版本,但会消耗更多输出 token,且不太适合对延迟敏感的工作负载。
关键要点:
➤ 🧠 总体智能提升,但在长上下文推理和知识召回方面出现退步:KAT-Coder-Pro V2 在 Artificial Analysis Intelligence Index 上得分为44分,比 KAT-Coder-Pro V1 提高了8分,与 Claude Sonnet 4.6(非推理,最大努力)持平。它在工具使用方面表现良好(Tau2-Telecom 上90%),但在长上下文推理和知识方面相比 KAT-Coder-Pro V1 出现退步,在 AA-LCR 上下降8个百分点(66%),在 HLE 上下降17个百分点(16%)。
➤ 🤖 智能体能力提升:KAT-Coder-Pro V2 在我们的智能体评估中展现出重大提升。在 Terminal-Bench Hard 上,它得分为49%,比 KAT-Coder-Pro V1 提高了40个百分点,使其成为得分最高的非推理模型,与 Claude Opus 4.6(非推理,49%)持平,并领先于 Claude Sonnet 4.6(非推理,46%)。KAT-Coder-Pro V2 在 GDPval-AA 上也显示出提升,得分为1123(比 V1 提高了304 Elo),但仍落后于 DeepSeek V3.2(1198)和 Qwen3.5 397B A17B(1202)等模型。
➤ ⚙️ 高模型 token 效率:KAT-Coder-Pro V2 是一款非推理模型,在同等智能水平的模型中,使用的模型 token 数量更少。它在 Artificial Analysis 智能指数上运行需要 870 万输出 token,低于 Claude Opus 4.6(非推理,约 1100 万)和 Claude Sonnet 4.6(非推理,约 1400 万),不过这一数字是其前代产品 KAT-Coder-Pro V1(约 450 万)的约 2 倍。它也比同等智能水平的推理模型(如 DeepSeek V3.2(推理,约 6100 万)和 Qwen3.5 397B A17B(推理,约 8600 万))使用的模型 token 显著更少。
➤ $ 更优的成本效率:KAT-Coder-Pro V2 运行 Artificial Analysis 智能指数需要花费 73 美元,较 V1 的 76 美元有所下降,原因是它在智能体评测中所需的交互轮次更少,从而减少了输入 token 的使用。这使得它在同等智能水平模型中成为成本效率最高的模型之一,成本低于 Qwen3.5 397B A17B(推理,418 美元)和 Claude Sonnet 4.6(非推理,1397 美元)。KAT-Coder-Pro V2 目前在 StreamLake 和 AtlasCloud API 端点上的定价为每 100 万输入/输出 token 分别为 0.30 美元/1.20 美元。
➤ ⚡ 低端到端响应时间:KAT-Coder-Pro V2 的运行速度约为每秒 109 个输出 token,远超 Claude Opus 4.6(非推理,39 OTPS)和 Claude Sonnet 4.6(非推理,43 OTPS)。由于它没有推理延迟,首 token 时间也很短,因此能提供最快的端到端响应时间之一(该指标衡量从发送请求到返回最终输出所花费的时间)。
模型详情:
➤ 可用性:KAT-Coder-Pro V2 可通过 StreamLake 和 AtlasCloud API 端点使用 ➤ 上下文窗口:256K 模型 token(与 KAT-Coder-Pro V1 相同) ➤ 多模态能力:仅限文本输入和输出