AI 摘要
主推文解释DSpark(类似MTP的预测技术)为何不降智:草稿模型生成的高接受率token(标点、助词、代码语法等)信息熵低,计算成本不变,被接受后提升性能而不影响质量;真正决定prompt质量的token接受率低。后置置信度调度器进一步保证效果。回应了引用中关于“小模型逆合不如大模型自解码为何不降智”的疑问。
本质上草稿模型生成的高接受率的token往往都是信息熵比较低的,比如标点符号,助词,代码的容易补全的语法等。但是这些计算成本在大模型中是不变的。所以这部分一旦被接受,不会降智但能提升性能。而真正决定prompt质量的那些接受率是特别低的。所以这也是DSpark聪明的一点,它还后置了一个置信度调度器。
@karminski3 牙医老师,我有一个问题:既然 DSpark 是类似于 MTP 的预测技术(依旧是类似于草稿模型的思路),那么小模型逆合的输出应该是不如大模型自身 decode 的,为什么说不会降智呢?(或者说....实际上是这样对性能影响较小