# 英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

- 来源：IT之家（RSS）
- 发布时间：2026-07-01 13:41
- AIHOT 分数：49
- AIHOT 链接：https://aihot.virxact.com/items/cmr1o68t400j5sl8zhpytq495
- 原文链接：https://www.ithome.com/0/971/026.htm

## AI 摘要

英伟达 6 月 30 日发布博文，宣布在 Blackwell 平台上通过全栈推理优化，使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一，达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层，采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术，单 GPU 的 token 吞吐量最高提升 20 倍。

## 正文

IT之家 7 月 1 日消息，英伟达昨日（6 月 30 日）发布博文，宣布在英伟达 Blackwell 平台上，通过优化全栈推理，相比较 DeepSeek V4 模型 1 个月前上线初期，单 Token 成本最多降至五分之一。

IT之家注：单 Token 成本（Cost Per Token）指模型生成或处理单个 token 的成本指标，常用于比较不同硬件、软件栈或部署方式的推理成本表现。

英伟达在博文中表示已将单 Token 成本列为 AI 总拥有成本的核心指标，并表示针对 DeepSeek v4 模型，Blackwell 平台已将其降低至行业最低水平。

在技术实现方面，英伟达通过生产运营层、应用加速层、基础设施访问层 3 层来优化推理：

生产运营层负责分布式服务、编排、自动扩缩容和内存管理；

应用加速层负责运行时优化，如计算与通信重叠、内核融合；

基础设施访问层负责调用 GPU、网络、内存与系统能力。

性能方面，英伟达通过分离式服务、大规模专家并行、基于 NVIDIA NVLink 的并行通信、NVFP4 精度以及多 token 预测等技术，叠加优化后，Blackwell 平台单 GPU 的 token 吞吐量最高可提升 20 倍。