Berryxia.AI@berryxia

2026-06-28 23:56·4天前

AI 摘要

DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint，以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。

兄弟们，DeepSeek开源了DSpark！

一个投机解码框架，不是新模型，是推理优化。

核心问题：传统投机解码里，一个小的draft模型先猜一串token，然后大模型一次性验证。

问题是猜的越后面越容易错，验证错误的猜测也浪费GPU算力。

DSpark的解法：

并行backbone + 顺序head混合。

纯并行猜测速度快，但后面的token会衰减，因为每个位置猜的时候不知道前面实际采样了什么。

DSpark加了一个小的Markov head，用前一个token调整当前猜测，解决了后缀衰减问题。

置信度调度。

加了一个置信度head，估算每个draft token的存活概率。再配合一个负载感知调度器，GPU空闲时多验证几个token，忙碌时少验证。不

是所有猜的token都值得检查，只检查那些可能正确的部分。

效果：在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%。

不同场景下吞吐提升1.5x到5x。

开源内容： - 模型checkpoint：DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark，复用现有V4权重，附加draft模块 - 训练代码：MIT协议的DeepSpec代码库 - 与北京大学联合开发

为什么重要：投机解码一直被认为"理论好但实战难"。

DSpark证明了在真实生产系统中，投机解码能稳定提速60%以上，而且不影响输出质量。

DeepSeek已经部署在生产环境里了。

Dmytro DzhulgakovDSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput in a real production system Let's unders...

DeepSeek 开源/仓库推理

Berryxia.AI@berryxia · X

50导出 Markdown