# DeepSeek DSpark：推测性解码技术详解

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-30 05:58
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmqzrob5g00ijslkiysg3kor9
- 原文链接：https://x.com/karminski3/status/2071714969146753450

## AI 摘要

DeepSeek推出的DSpark是一种推测性解码技术，通过在Final RMSNorm后接入3层MTP微型Transformer堆叠，让大模型在输出前并行猜5个token，经置信度头剪裁后，送回大模型用prefill验证，正确则一次性吐出多个token。相比外挂小模型更高效，不降智，速度提升60%-85%。目前SGLang已有相关PR（#29538），DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。

## 正文

DeepSeek真的是性价比和技术双重斩杀线…

有同学看不懂DSpark是啥， 简单给大家写个小教程讲讲.

推测性解码（投机解码）这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话， 大模型判断小模型说的对不对. 因为现在模型普遍卡内存带宽， 而GPU算力是富余的， 所以大模型的prefill速度（看字）比decode速度（吐字）快很多. 那么让小模型沿着大模型的思路先说一段话， 大模型判断对不对（只需要看字）， 只要小模型猜对了， 那么这就利用了prefill速度， 吐字就会成倍的提升.

但问题来了， 外挂小模型也要看字（prefill）， 也要占用显存， 也要吃显存带宽. 那么有没有更好的方法来解决呢？ 来了， 这就是DSpark.

看我的这个图（左侧DSv4架构图是 @rasbt 大佬的）， DSpark 接在了 Final RMSNorm 过程中. 不是接一个完整的小模型， 而是一个3 层的MTP（多Token预测）微型Transformer堆叠.

大模型算完前面60多层后， 刚把当前这句话的"高浓缩概念"（特征向量/隐藏状态）推到 Final RMSNorm 这个出口，还没来得及翻译成具体文字时，DSpark开始截胡：

首先是半自回归极速脑补 （MTP + Markov Head）， DSpark自己有一丢丢参数， 然后它就瞬间并行猜5个字（特征向量）， 然后再用自己内部的一个串行网络理顺逻辑. （注意啊，先并行然后串行消除并行导致的逻辑不连贯）.

然后， 它会有一个置信度预测头， 预判自己猜的准不准， 比如5个字的后2不准就直接砍掉， 防止后续送回大模型浪费算力.

最后把留下的3个字塞回词表映射层， 把向量翻译为token. 到此为止DSpark工作就做完了.

然后就是大模型扫一遍DSpark输出的对不对（只用prefill，不decode）， 一旦正确了， 就直接吐字， 这样之前模型一次只能吐一个字， 现在就能吐3个字了！

最后， 推测性解码是不会降智的， 速度能提升60%-85%！ 之前是雇一个小模型帮忙写草稿， 现在则是直接脑子里植入芯片了.

目前SGLang已经有这个特性的PR了（29538）， 而且DeepSeek刚在自己的HuggingFace主页发了一大堆小模型的DSpark魔改版. 大胆猜一波未来发布的模型会不会标配DSpark？

#dspark #deepseek #投机解码 #推测性解码
