DeepSeek V4 Pro登顶GDPval-AA开源模型榜首

Artificial Analysis@ArtificialAnlys

精选78

2026-04-24 13:25·58天前

精选理由

DeepSeek V4 Pro 是目前最大的开源模型，1.6T 总参数但只激活 49B，agent 能力比 V3.2 暴涨 350 Elo，MIT 协议加上 Flash 版本的白菜价，做 agent 产品的团队该认真评估一下了。

AI 摘要

DeepSeek发布全新架构V4系列模型，其中V4 Pro在衡量智能体真实工作任务的GDPval-AA评估中，以1554分领先所有开源模型，超越GLM-5.1、MiniMax-M2.7和Kimi K2.6。V4 Pro是迄今最大的开源权重模型，拥有1.6万亿总参数和490亿活跃参数，相比前代V3.2在智能体能力上有显著提升。V4 Flash作为更小更快的版本，性能也大幅超越V3.2。新系列采用混合思维架构，上下文窗口扩展至100万token，并以MIT许可证发布，可通过官方API获取。

AI 翻译 · 中文

DeepSeek V4 Pro 在 GDPval-AA（我们面向智能体的真实工作任务评测）中排名第一，是当前最强的开源权重模型。

@deepseek_ai 发布了 V4 Pro（总参数 1.6T / 激活参数 49B）和 V4 Flash（总参数 284B / 激活参数 13B）。V4 是 DeepSeek 自 V3 以来首个全新尺寸的模型，此前的所有中间模型（V3.1、V3.2、R1、R1 0528）均沿用 V3 家族的 685B 总参数 / 37B 激活参数的 MoE 设计。V4 Pro 也是迄今为止已发布的最大开源权重模型，在总参数和激活参数数量上均超越了 Kimi K2.6（总参数 1T / 激活参数 32B）。

V4 Pro 主要以 FP4 精度发布，模型总大小约 865GB，与 Kimi K2.6（INT4，约 500GB）相当。GLM-5.1 原生采用 BF16（约 1.49TB），通常以 FP8 或 FP4 精度提供服务。这两个模型均为混合思维/非思维模型，我们测试了它们在 Max Effort 和 High Effort 设置下的推理变体。我们目前正在 Artificial Analysis Intelligence Index 中进行全套评测，并将很快分享最新结果。

GDPval-AA 评测的主要发现： ➤ V4 Pro 在 GDPval-AA 上领先所有开源权重模型。V4 Pro（推理，Max）得分为 1554，领先于 GLM-5.1（推理，1535）、MiniMax-M2.7（1514）和 Kimi K2.6（1484）。V4 Flash（推理，Max）得分为 1388，尽管该模型更小、总参数和激活参数更少，但仍大幅领先于 DeepSeek V3.2（推理，1203）。V4 Pro（推理，High，1558）和 V4 Flash（推理，High，1414）在置信区间内与其 Max 版本基本持平。 ➤ V4 Pro 在智能体能力方面相比 V3.2 有显著提升。V3.2（推理）在 GDPval-AA 上得分为 1203；V4 Pro（推理，Max）得分为 1554，提升了约 355 Elo 点。V4 Flash（推理，High）得分为 1414，在更小、更快的模型尺寸下相比 V3.2（推理）提升了约 210 Elo 点。 ➤ 在 GDPval-AA 上，V4 家族各模型的输出 token 用量存在显著差异。V4 Pro（推理，High）在 GDPval-AA 上使用了 8M 输出 token，V4 Pro（推理，Max）使用了 11M，与领先的开源权重同类模型 Kimi K2.6（10M）和 MiniMax-M2.7（7M）水平相当。V4 Flash（推理，Max）使用了 15M 输出 token，得分为 1388，是该基准测试中所有开源权重同类模型里 token 用量最高的。值得注意的是，V4 Flash（推理，High）仅使用 7M 输出 token 就获得了更高的 1414 分。

关键模型细节： ➤ 参数量：V4 Pro 总参数量 1.6T / 活跃参数量 49B，V4 Flash 总参数量 284B / 活跃参数量 13B ➤ 架构：自 V3 以来首个全新 DeepSeek 架构（V3 系列为总参数量 685B / 活跃参数量 37B 的 MoE 架构） ➤ 模态：仅支持文本输入与输出，相当于 V3.2 ➤ 上下文窗口：1M 个模型 token，较 V3.2 的 128K 上下文窗口扩大 8 倍 ➤ 精度：提供 FP4 与 FP8 混合精度或纯 FP8 精度两种选择 ➤ 许可证：MIT ➤ 可用性：可通过 DeepSeek 第一方 API 使用。截至撰稿时，我们预计众多第三方服务商将上线该模型 ➤ 定价（DeepSeek 第一方 API）：V4 Pro 每百万输入/输出模型 token 分别为 $1.74 / $3.48，V4 Flash 每百万输入/输出模型 token 分别为 $0.14 / $0.28。缓存命中输入模型 token 定价为每百万模型 token $0.145（V4 Pro）和 $0.028（V4 Flash）

智能体DeepSeek开源生态模型发布

在 X 查看原推

Artificial Analysis@ArtificialAnlys · X