Bebop:通过带拒绝采样的多token预测加速RL训练
阅读原文· arxiv.org做RLHF的团队值得细看,MTP加拒绝采样直接把RL训练推到了1.8倍加速,还省去了在线更新MTP的成本。TV损失的设计让接受率提了10%,这套组合拳相当实用。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
强化学习(RL)已成为现代大语言模型的关键组成部分,但解码生成阶段(rollout stage)仍然是RL训练流程中的主要瓶颈。尽管多token预测(MTP)通过投机解码(speculative decoding)自然成为加速rollout的方案,但许多研究发现,MTP的接受率在RL训练期间显著下降,导致加速效果有限。为了解决这一瓶颈,我们提出了Bebop——一项关于MTP在大语言模型后训练中的系统性研究,并提供了将MTP集成到大规模RL流程中的实用方案。首先,我们发现MTP接受率从根本上受到模型熵波动的制约,并且与RL阶段熵的上升呈现明显的负线性关系。其次,我们表明,与贪婪草稿采样相比,概率性拒绝采样在很大程度上缓解了RL中熵带来的干扰。我们进一步发现,传统的MTP训练目标(交叉熵或KL散度)在此场景下是次优的,因此我们提出了一种新的端到端TV损失函数,直接优化多步拒绝采样的接受率,在数学推理、代码生成和智能体任务上实现了约10%的接受率提升,最高可达95%的接受率,以及高达25%的额外推理吞吐量提升。第三,我们在RL过程中测试了多种在线MTP训练策略,并表明,采用端到端TV损失和拒绝采样的RL前MTP训练在整个RL过程中能够保持一致的接受率和加速效果,从而消除了昂贵的在线MTP更新需求。我们进行了大量实验和分析,验证了我们的发现。实验结果显示,我们的方法在Qwen3.5、Qwen3.6和Qwen3.7模型的异步RL训练中实现了高达1.8倍的端到端加速。