Reasoning Arena:可验证奖励不足时的迹线锦标赛
阅读原文· arxiv.org强化学习训推理模型常遇到奖励无法区分,这篇把被浪费的样本变成有效梯度,训练加速近 50% 同时性能还涨 7.6%,做 RL 训练的人值得细读。
针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
强化学习结合可验证奖励(RLVR)已成为通过结果监督提升大语言模型推理能力的主流范式。然而,可验证奖励在群体层面常常变得无信息量:当某个给定提示的所有采样轨迹获得相同奖励时,群体相对优势估计无法提供梯度信号,即使这些轨迹在推理质量上可能存在显著差异。我们提出了推理竞技场(Reasoning Arena),这是一种自适应训练框架,将这类奖励无差异的群体路由到评判系统而非丢弃它们。除了检查最终答案,推理竞技场还构建了轨迹锦标赛,其中推理轨迹进行两两对比,以揭示群体内更细粒度的偏好,将推理质量转化为丰富的相对奖励信号。为了高效估计奖励,我们并非穷举比较所有配对,而是将每条新轨迹与一个动态更新的、由先前生成轨迹组成的小型锚点池进行比较,以高效建立相对排名。然后我们在不完整的比较图上拟合 Bradley-Terry 模型,从而无需进行平方级两两比较即可实现可扩展的强化学习集成。实验结果表明,在竞赛数学和代码基准测试中,推理竞技场相比 RLVR 基线平均提升了 7.6%。通过将原本浪费的零优势样本转化为有用的梯度更新,我们的方法将训练速度提升了 27% 至 41%,节省了近 50% 的生成计算量,并显著提升了整体推理性能。