DFlash:块扩散草稿模型实现最高15倍吞吐量提升
DFlash把扩散模型引入推测解码草案阶段,一次并行生成整块token,单流加速最高6倍,NVIDIA实测吞吐量提升15倍,推理成本下降幅度很大,部署大模型的团队可以立刻关注。
DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。
自回归大语言模型逐个模型 token 生成文本。每个模型 token 都要等待前一个 token 生成完毕。这种串行循环导致现代 GPU 利用率不足,推理速度缓慢。对于长链式推理模型,这一问题更加严重;它们的长篇幅输出使得延迟成为生成过程的主要瓶颈。
投机解码是标准的解决方案。一个小型草稿模型预测后续模型 token,大型目标模型并行验证这些 token。被接受的模型 token 保留下来,因此输出是无损的。但大多数方法(包括最先进的 EAGLE-3)仍然采用自回归方式生成草稿。这种串行草稿机制将实际加速比限制在 2–3 倍左右。
由加州大学圣迭戈分校团队(z-lab)推出的 DFlash 另辟蹊径。它是一个专为草稿生成设计的轻量级块扩散模型。不同于逐 token 生成草稿,它只需一次前向传播就能提出整个块。然后目标模型并行验证该块。
研究团队报告称,在各种模型和任务上实现了超过 6 倍的无损加速,比 EAGLE-3 最高快 2.5 倍。在 NVIDIA Blackwell 上,NVIDIA 工程团队报告称,gpt-oss-120b 的吞吐量在相同的用户交互性目标下提升了高达 15 倍。

块扩散草稿生成带来的变化
块扩散模型一次性对一整个被遮蔽的模型 token 块进行去噪。它们将并行生成与自回归块结构相结合。DFlash 仅将这一思想应用于草稿生成阶段,验证环节仍由可信的自回归目标模型完成。
这种拆分对质量至关重要。独立的扩散大语言模型在准确性上通常不如自回归模型,而且需要多次去噪步骤,这拖慢了原始推理速度。DFlash 同时规避了这两个问题:草稿只需足够好以被接受即可,目标模型的并行验证保证了最终输出的分布。
第二个优势是草稿生成成本。自回归草稿模型的成本随投机 token 数量线性增长。而扩散草稿模型通过一次并行前向传播即可生成所有 token。因此,随着块大小的增加,草稿生成延迟基本保持恒定。这使得 DFlash 能够使用更深、表达能力更强的草稿模型,而不会增加延迟。
这使 DFlash 与早期的扩散草稿模型工作区分开来。DiffuSpec 和 SpecDiff-2 等方法使用了庞大的 7B 草稿模型,加速比最多只能达到 3–4 倍。而 DFlash 则使用了一个小型五层草稿模型(针对 Qwen3-Coder 为八层)。
“目标模型最了解”的洞察
DFlash 的核心思想很简单:目标模型最了解。大型自回归模型的隐藏特征编码了关于多个未来 token 的信息。DFlash 从目标模型的多个层中提取隐藏状态,将它们融合成一个紧凑的“目标上下文特征”。然后,该特征用于条件控制草稿模型。
DFlash 注入该特征的方式与 EAGLE-3 不同。EAGLE-3 仅将目标特征融合到草稿模型的输入嵌入中。随着草稿深度增加,该信号会被稀释。而 DFlash 则将特征注入到每一草稿层的 Key 和 Value 投影中。这些投影后的特征位于草稿模型的 KV 缓存中,并在多次草稿迭代中持续存在。
这种 KV 注入使得接受长度能够随草稿深度扩展。一个五层 DFlash 草稿模型生成 16 个 token,效果优于 EAGLE-3 生成 8 个 token。在论文测试中,它同时实现了更低的延迟和更高的接受率。草稿模型实际上变成了一个附着在目标模型之上的扩散适配器。
两个加速比指标,测量方式不同
DFlash 研究中的 6 倍是指单流无损加速。在 Qwen3-8B 上使用贪婪解码(Transformers 后端),DFlash 平均达到 4.86 倍加速。EAGLE-3 在树大小为 16 时平均为 1.76 倍,在树大小为 60 时平均为 2.02 倍。DFlash 在 MATH-500 上达到峰值 6.08 倍(τ = 7.87),在所有任务上平均 τ = 6.49。
NVIDIA 在固定交互性目标下的吞吐量提升为 15 倍。这适用于基于 DGX B300 系统中八块 NVIDIA Blackwell GPU、使用 TensorRT-LLM 的 gpt-oss-120b 模型。在每用户 500–600 tokens/秒范围内,DFlash 提供的吞吐量是自回归解码的 15 倍以上。这比相同条件下的 EAGLE-3 高出约 1.5 倍。
下表展示了论文中温度设为 0 时(Transformers 后端)Qwen3-8B 各任务的加速比。
| 任务(Qwen3-8B, temp=0) | 基线 | EAGLE-3 (16) | DFlash (16) | DFlash τ |
|---|---|---|---|---|
| GSM8K | 1.00× | 1.94× | 5.15× | 6.54 |
| MATH-500 | 1.00× | 1.81× | 6.08× | 7.87 |
| AIME25 | 1.00× | 1.79× | 5.62× | 7.08 |
| HumanEval | 1.00× | 1.89× | 5.14× | 6.50 |
| MBPP | 1.00× | 1.69× | 4.65× | 5.95 |
| LiveCodeBench | 1.00× | 1.57× | 5.51× | 7.27 |
| MT-Bench | 1.00× | 1.63× | 2.75× | 4.24 |
| 平均 | 1.00× | 1.76× | 4.86× | 6.49 |
另一项 NVIDIA Speed-Bench 对比衡量了匹配并发下的交互性加速比。在 gpt-oss-120b 上,DFlash 平均 2.3 倍,而 EAGLE-3 为 1.7 倍。在 Llama 3.1 8B Instruct 上,DFlash 平均 2.8 倍,而 EAGLE-3 为 2.2 倍。
用例示例
DFlash 面向延迟敏感的服务场景,在这种场景中逐 token 生成会带来负面影响。以下三种模式尤为适用:
- 编码智能体:代码生成需要快速、交互式的响应。在基于 vLLM 的 Gemma 4 31B 上,NVIDIA 报告在 Math500 上并发数为 1 时加速比可达 5.8 倍。HumanEval 达到 5.6 倍。更快的草拟意味着智能体循环中的等待时间更短。
- 推理模型:长链式思维轨迹占据了绝大部分生成时间。在启用思考模式、使用贪心解码时,DFlash 在 Qwen3-4B 和 Qwen3-8B 上保持约 4.5 倍加速比。使用采样时,保持约 3.9 倍。这降低了长推理输出的成本。
- 服务与吞吐量:DFlash 还能提升服务吞吐量。在基于 SGLang 和 B200 GPU 的环境下,Qwen3-8B(Math500,并发数 1)上可达 5.1 倍。随着并发数上升,增益逐渐减弱但仍为正值,因此服务成本依然下降。
运行 DFlash
DFlash 附带检查点和框架支持,因此采用时只需极少量代码改动。在 vLLM 上,只需将 EAGLE-3 配置替换为 DFlash 配置。无需重构应用程序。
vllm serve Qwen/Qwen3.5-27B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768Transformers 后端支持 Qwen3 和 LLaMA-3.1 模型。它提供了一个 spec_generate 调用,将草稿模型与目标模型配对使用。
from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer
draft = AutoModel.from_pretrained(
"z-lab/Qwen3-8B-DFlash-b16", trust_remote_code=True,
dtype="auto", device_map="cuda:0").eval()
target = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen3-8B", dtype="auto", device_map="cuda:0").eval()
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B")
messages = [{"role": "user", "content": "How many positive whole-number divisors does 196 have?"}]
input_ids = tokenizer.apply_chat_template(
messages, return_tensors="pt", add_generation_prompt=True,
enable_thinking=False).to(draft.device)
output = draft.spec_generate(
input_ids=input_ids, max_new_tokens=2048, temperature=0.0,
target=target, stop_token_ids=[tokenizer.eos_token_id])
print(tokenizer.decode(output[0], skip_special_tokens=False))关键要点
- DFlash 在一个前向传播中草拟整个 token 块,而不是一次一个 token。
- 它将目标隐藏特征注入到每个草拟层的 KV 缓存中,从而使接受长度随深度扩展。
- 研究论文指标:在 Qwen3-8B 上实现高达 6.08 倍无损加速;NVIDIA 测试:在 Blackwell 上固定交互性下吞吐量高达 15 倍。
- 一个轻量级的五层草拟器取代了之前将扩散方法限制在约 3–4 倍的 7B 草拟器。