DeepSeek 开源 DSpark,一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构,消除后缀衰减;并引入置信度 head 和负载感知调度器,动态控制验证数量。在 DeepSeek-V4 生产系统中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint,以及 MIT 协议的 DeepSpec 训练代码,与北京大学联合开发。
兄弟们,DeepSeek开源了DSpark!
一个投机解码框架,不是新模型,是推理优化。
核心问题:传统投机解码里,一个小的draft模型先猜一串token,然后大模型一次性验证。
问题是猜的越后面越容易错,验证错误的猜测也浪费GPU算力。
DSpark的解法:
- 并行backbone + 顺序head混合。
纯并行猜测速度快,但后面的token会衰减,因为每个位置猜的时候不知道前面实际采样了什么。
DSpark加了一个小的Markov head,用前一个token调整当前猜测,解决了后缀衰减问题。