# DeepSeek 开源 DSpark 投机解码框架

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-28 23:56
- AIHOT 分数：50
- AIHOT 链接：https://aihot.virxact.com/items/cmqy001e802zbslwfis85g6nc
- 原文链接：https://x.com/berryxia/status/2071261357920682276

## AI 摘要

DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 `DeepSeek-V4-Pro-DSpark`/`Flash-DSpark` checkpoint，以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。

## 正文

兄弟们，DeepSeek开源了DSpark！

一个投机解码框架，不是新模型，是推理优化。

核心问题：传统投机解码里，一个小的draft模型先猜一串token，然后大模型一次性验证。

问题是猜的越后面越容易错，验证错误的猜测也浪费GPU算力。

DSpark的解法：

1. 并行backbone + 顺序head混合。

纯并行猜测速度快，但后面的token会衰减，因为每个位置猜的时候不知道前面实际采样了什么。

DSpark加了一个小的Markov head，用前一个token调整当前猜测，解决了后缀衰减问题。

2. 置信度调度。

加了一个置信度head，估算每个draft token的存活概率。再配合一个负载感知调度器，GPU空闲时多验证几个token，忙碌时少验证。不

是所有猜的token都值得检查，只检查那些可能正确的部分。

效果：在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%。

不同场景下吞吐提升1.5x到5x。

开源内容：
- 模型checkpoint：`DeepSeek-V4-Pro-DSpark` 和 `DeepSeek-V4-Flash-DSpark`，复用现有V4权重，附加draft模块
- 训练代码：MIT协议的DeepSpec代码库
- 与北京大学联合开发

为什么重要：投机解码一直被认为"理论好但实战难"。

DSpark证明了在真实生产系统中，投机解码能稳定提速60%以上，而且不影响输出质量。

DeepSeek已经部署在生产环境里了。

### 引用推文

> Dmytro Dzhulgakov：DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput in a real production system Let's unders...
