英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

2026-04-25 15:36·68天前

AI 摘要

英伟达宣布其Blackwell平台已适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。DeepSeek-V4-Pro拥有1.6T总参数量与49B激活参数，定位高级推理；DeepSeek-V4-Flash则为284B总参数量与13B激活参数，主打高效场景。两款模型均支持100万Token上下文窗口与最高38.4万Token输出长度。实测显示，DeepSeek-V4-Pro在NVIDIA GB200 NVL72上开箱性能超过150 tokens/sec/user。开发者可通过NVIDIA NIM微服务下载部署，或利用SGLang与vLLM框架进行定制化推理，vLLM支持扩展至100个以上GPU。

原文

IT之家 4 月 25 日消息，英伟达今天（4 月 25 日）发布博文，宣布其 NVIDIA Blackwell 平台已适配 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款模型，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。

英伟达在博文指出，DeepSeek-V4-Pro 拥有 1.6T 总参数量与 49B 激活参数，定位高级推理任务；DeepSeek-V4-Flash 版本则为 284B 总参数量与 13B 激活参数，主打高速高效场景。

两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度，覆盖长文本编码、文档分析等核心应用，并采用 MIT 开源协议。

实测数据显示，DeepSeek-V4-Pro 在 NVIDIA GB200 NVL72 上开箱即用性能超 150 tokens / sec / user，借助 vLLM 的 Day 0 配方，开发者可在 Blackwell B300 上快速部署。随着 Dynamo、NVFP4 及 CUDA 内核的深度优化，预期性能将进一步提升。

部署生态方面，开发者可通过 NVIDIA NIM 微服务下载部署，或利用 SGLang 与 vLLM 框架进行定制化推理。SGLang 提供低延迟、均衡及最大吞吐量三种配方；vLLM 则支持多节点扩展至 100 个以上 GPU，具备工具调用与推测解码能力。

IT之家附上参考

Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints

IT之家（RSS）

63导出 Markdown

英伟达已适配 DeepSeek-V4 AI 模型，GB200 NVL72 开箱性能超 150 tokens / sec / user

2026-04-25 15:36·68天前

阅读原文· ithome.com

AI 摘要

原文

两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度，覆盖长文本编码、文档分析等核心应用，并采用 MIT 开源协议。