DeepSeek V4 Pro 是目前最大的开源模型,1.6T 总参数但只激活 49B,agent 能力比 V3.2 暴涨 350 Elo,MIT 协议加上 Flash 版本的白菜价,做 agent 产品的团队该认真评估一下了。
DeepSeek发布全新架构V4系列模型,其中V4 Pro在衡量智能体真实工作任务的GDPval-AA评估中,以1554分领先所有开源模型,超越GLM-5.1、MiniMax-M2.7和Kimi K2.6。V4 Pro是迄今最大的开源权重模型,拥有1.6万亿总参数和490亿活跃参数,相比前代V3.2在智能体能力上有显著提升。V4 Flash作为更小更快的版本,性能也大幅超越V3.2。新系列采用混合思维架构,上下文窗口扩展至100万token,并以MIT许可证发布,可通过官方API获取。
DeepSeek V4 Pro 在 GDPval-AA(我们面向智能体的真实工作任务评测)中排名第一,是当前最强的开源权重模型。
@deepseek_ai 发布了 V4 Pro(总参数 1.6T / 激活参数 49B)和 V4 Flash(总参数 284B / 激活参数 13B)。V4 是 DeepSeek 自 V3 以来首个全新尺寸的模型,此前的所有中间模型(V3.1、V3.2、R1、R1 0528)均沿用 V3 家族的 685B 总参数 / 37B 激活参数的 MoE 设计。V4 Pro 也是迄今为止已发布的最大开源权重模型,在总参数和激活参数数量上均超越了 Kimi K2.6(总参数 1T / 激活参数 32B)。
V4 Pro 主要以 FP4 精度发布,模型总大小约 865GB,与 Kimi K2.6(INT4,约 500GB)相当。GLM-5.1 原生采用 BF16(约 1.49TB),通常以 FP8 或 FP4 精度提供服务。这两个模型均为混合思维/非思维模型,我们测试了它们在 Max Effort 和 High Effort 设置下的推理变体。我们目前正在 Artificial Analysis Intelligence Index 中进行全套评测,并将很快分享最新结果。
GDPval-AA 评测的主要发现: ➤ V4 Pro 在 GDPval-AA 上领先所有开源权重模型。V4 Pro(推理,Max)得分为 1554,领先于 GLM-5.1(推理,1535)、MiniMax-M2.7(1514)和 Kimi K2.6(1484)。V4 Flash(推理,Max)得分为 1388,尽管该模型更小、总参数和激活参数更少,但仍大幅领先于 DeepSeek V3.2(推理,1203)。V4 Pro(推理,High,1558)和 V4 Flash(推理,High,1414)在置信区间内与其 Max 版本基本持平。 ➤ V4 Pro 在智能体能力方面相比 V3.2 有显著提升。V3.2(推理)在 GDPval-AA 上得分为 1203;V4 Pro(推理,Max)得分为 1554,提升了约 355 Elo 点。V4 Flash(推理,High)得分为 1414,在更小、更快的模型尺寸下相比 V3.2(推理)提升了约 210 Elo 点。 ➤ 在 GDPval-AA 上,V4 家族各模型的输出 token 用量存在显著差异。V4 Pro(推理,High)在 GDPval-AA 上使用了 8M 输出 token,V4 Pro(推理,Max)使用了 11M,与领先的开源权重同类模型 Kimi K2.6(10M)和 MiniMax-M2.7(7M)水平相当。V4 Flash(推理,Max)使用了 15M 输出 token,得分为 1388,是该基准测试中所有开源权重同类模型里 token 用量最高的。值得注意的是,V4 Flash(推理,High)仅使用 7M 输出 token 就获得了更高的 1414 分。
关键模型细节: ➤ 参数量:V4 Pro 总参数量 1.6T / 活跃参数量 49B,V4 Flash 总参数量 284B / 活跃参数量 13B ➤ 架构:自 V3 以来首个全新 DeepSeek 架构(V3 系列为总参数量 685B / 活跃参数量 37B 的 MoE 架构) ➤ 模态:仅支持文本输入与输出,相当于 V3.2 ➤ 上下文窗口:1M 个模型 token,较 V3.2 的 128K 上下文窗口扩大 8 倍 ➤ 精度:提供 FP4 与 FP8 混合精度或纯 FP8 精度两种选择 ➤ 许可证:MIT ➤ 可用性:可通过 DeepSeek 第一方 API 使用。截至撰稿时,我们预计众多第三方服务商将上线该模型 ➤ 定价(DeepSeek 第一方 API):V4 Pro 每百万输入/输出模型 token 分别为 $1.74 / $3.48,V4 Flash 每百万输入/输出模型 token 分别为 $0.14 / $0.28。缓存命中输入模型 token 定价为每百万模型 token $0.145(V4 Pro)和 $0.028(V4 Flash)