# Bebop：通过带拒绝采样的多token预测加速RL训练

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-10 08:00
- AIHOT 分数：73
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq8ws2lk06imslld3t5k4rid
- 原文链接：https://arxiv.org/abs/2606.12370

## 精选理由

做RLHF的团队值得细看，MTP加拒绝采样直接把RL训练推到了1.8倍加速，还省去了在线更新MTP的成本。TV损失的设计让接受率提了10%，这套组合拳相当实用。

## AI 摘要

Bebop系统研究多token预测（MTP）在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系；概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率，带来约10%提升，最高达95%接受率，额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上，异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速，无需在线更新。

## 正文

强化学习（RL）已成为现代大语言模型的关键组成部分，但解码生成阶段（rollout stage）仍然是RL训练流程中的主要瓶颈。尽管多token预测（MTP）通过投机解码（speculative decoding）自然成为加速rollout的方案，但许多研究发现，MTP的接受率在RL训练期间显著下降，导致加速效果有限。为了解决这一瓶颈，我们提出了Bebop——一项关于MTP在大语言模型后训练中的系统性研究，并提供了将MTP集成到大规模RL流程中的实用方案。首先，我们发现MTP接受率从根本上受到模型熵波动的制约，并且与RL阶段熵的上升呈现明显的负线性关系。其次，我们表明，与贪婪草稿采样相比，概率性拒绝采样在很大程度上缓解了RL中熵带来的干扰。我们进一步发现，传统的MTP训练目标（交叉熵或KL散度）在此场景下是次优的，因此我们提出了一种新的端到端TV损失函数，直接优化多步拒绝采样的接受率，在数学推理、代码生成和智能体任务上实现了约10%的接受率提升，最高可达95%的接受率，以及高达25%的额外推理吞吐量提升。第三，我们在RL过程中测试了多种在线MTP训练策略，并表明，采用端到端TV损失和拒绝采样的RL前MTP训练在整个RL过程中能够保持一致的接受率和加速效果，从而消除了昂贵的在线MTP更新需求。我们进行了大量实验和分析，验证了我们的发现。实验结果显示，我们的方法在Qwen3.5、Qwen3.6和Qwen3.7模型的异步RL训练中实现了高达1.8倍的端到端加速。