# 华为：昇腾超节点系列产品全面支持 DeepSeek V4

- 来源：IT之家（RSS）
- 发布时间：2026-04-24 14:26
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmockkfjo0441slsjaw3vz0y1
- 原文链接：https://www.ithome.com/0/943/029.htm

## AI 摘要

华为宣布其昇腾超节点全系列产品已全面支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术，实现了高吞吐、低时延的推理部署。具体性能上，DeepSeek V4-Pro模型在8K输入下，单卡解码吞吐达4700TPS，时延约20ms；V4-Flash模型单卡吞吐为1600TPS，时延约10ms。此外，昇腾A3超节点系列也全面适配，并提供训练参考实现；基于64卡配置，V4-Flash模型在8K/1K场景下单卡吞吐超过2000TPS。

## 正文

IT之家 4 月 24 日消息，今天上午，DeepSeek-V4 模型预览版正式上线并同步开源。

华为官方随后宣布，通过双方芯模技术紧密协同，实现昇腾超节点全系列产品支持 DeepSeek V4 系列模型。

官方表示，昇腾 950 通过融合 kernel 和多流并行技术降低 Attention 计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的 DeepSeek V4 模型推理部署。昇腾 A3 超节点系列产品也全面适配，同时为便于用户快速微调，提供了基于昇腾 A3 超节点的训练参考实现。

IT之家获悉，基于 DeepSeek V4-Pro 模型，在 8K 输入场景，昇腾 950 超节点可实现 TPOT 约 20ms 时单卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型，8K 长序列输入场景下可实现 TPOT 约 10ms 时单卡 Decode 吞吐 1600TPS（上述 Benchmark 数据均基于 Offine 推理模式采集，不包含 Serving 调度和框架负载均衡影响）。

基于昇腾 A3 64 卡超节点结合大 EP 模式部署，DeepSeek V4-Flash 模型，8K/1K 输入输出场景，基于 vLLM 推理引擎可实现 2000+TPS 的单卡 Decode 吞吐，单卡吞吐持续提升。官方表示，针对 DeepSeek V4-Pro 模型，昇腾 A3 同步支持推理部署，性能持续优化中。
