Reasoning Arena：可验证奖励不足时的迹线锦标赛

2026-06-08 19:57·24天前

精选理由

强化学习训推理模型常遇到奖励无法区分，这篇把被浪费的样本变成有效梯度，训练加速近 50% 同时性能还涨 7.6%，做 RL 训练的人值得细读。

AI 摘要

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统，通过迹线锦标赛（trace tournaments）对推理迹线进行头对头比较，转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较，然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上，平均超越RLVR基线7.6%，训练加速27%至41%，节省近50%生成计算量。

AI 翻译 · 中文

强化学习结合可验证奖励（RLVR）已成为通过结果监督提升大语言模型推理能力的主流范式。然而，可验证奖励在群体层面常常变得无信息量：当某个给定提示的所有采样轨迹获得相同奖励时，群体相对优势估计无法提供梯度信号，即使这些轨迹在推理质量上可能存在显著差异。我们提出了推理竞技场（Reasoning Arena），这是一种自适应训练框架，将这类奖励无差异的群体路由到评判系统而非丢弃它们。除了检查最终答案，推理竞技场还构建了轨迹锦标赛，其中推理轨迹进行两两对比，以揭示群体内更细粒度的偏好，将推理质量转化为丰富的相对奖励信号。为了高效估计奖励，我们并非穷举比较所有配对，而是将每条新轨迹与一个动态更新的、由先前生成轨迹组成的小型锚点池进行比较，以高效建立相对排名。然后我们在不完整的比较图上拟合 Bradley-Terry 模型，从而无需进行平方级两两比较即可实现可扩展的强化学习集成。实验结果表明，在竞赛数学和代码基准测试中，推理竞技场相比 RLVR 基线平均提升了 7.6%。通过将原本浪费的零优势样本转化为有用的梯度更新，我们的方法将训练速度提升了 27% 至 41%，节省了近 50% 的生成计算量，并显著提升了整体推理性能。

HuggingFace Daily Papers（社区热门论文）

精选74导出 Markdown