# DSpark：草稿模型高接受率token不降智原理

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-30 07:19
- AIHOT 分数：40
- AIHOT 链接：https://aihot.virxact.com/items/cmqzuwfv101bbslkitapkjiry
- 原文链接：https://x.com/karminski3/status/2071735453791944976

## AI 摘要

主推文解释DSpark（类似MTP的预测技术）为何不降智：草稿模型生成的高接受率token（标点、助词、代码语法等）信息熵低，计算成本不变，被接受后提升性能而不影响质量；真正决定prompt质量的token接受率低。后置置信度调度器进一步保证效果。回应了引用中关于“小模型逆合不如大模型自解码为何不降智”的疑问。

## 正文

本质上草稿模型生成的高接受率的token往往都是信息熵比较低的，比如标点符号，助词，代码的容易补全的语法等。但是这些计算成本在大模型中是不变的。所以这部分一旦被接受，不会降智但能提升性能。而真正决定prompt质量的那些接受率是特别低的。所以这也是DSpark聪明的一点，它还后置了一个置信度调度器。

### 引用推文

> Wanderer：@karminski3 牙医老师,我有一个问题:既然 DSpark 是类似于 MTP 的预测技术(依旧是类似于草稿模型的思路),那么小模型逆合的输出应该是不如大模型自身 decode 的,为什么说不会降智呢?(或者说....实际上是这样对性能影响较小