从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配
阅读原文· arxiv.orgSCRL 将推理链解构为可验证子问题课程,让 RL 在超难数学题上获得细粒度信用分配,AIME 提点显著,做推理 RL 的团队值得复现。
针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。
基于可验证奖励的强化学习(RLVR)在大语言模型推理方面展现出强大潜力,但基于结果的 RLVR 在困难问题上仍然效率低下,因为正确的最终答案展开很少见,并且样本级别的信用分配无法利用失败尝试中的部分进展。我们提出了 SCRL(子问题课程强化学习),这是一个课程强化学习框架,它从参考推理链中推导出可验证的子问题,并将最终子问题固定为原始问题。这将困难问题上的部分进展转化为可验证的学习信号。在算法上,SCRL 使用子问题级别归一化,它在每个子问题位置独立地对奖励进行归一化,并将由此产生的优势分配给相应的答案片段,从而在没有外部评分标准或奖励模型的情况下实现更细粒度的信用分配。我们的分析表明,子问题课程将困难问题从梯度死区中提升出来,随着原始问题变得越难,相对增益越大。在七个数学推理基准测试中,SCRL 优于强大的课程学习基线,在 Qwen3-4B-Base 上平均准确率比 GRPO 提高了 +4.1 个百分点,在 Qwen3-14B-Base 上提高了 +1.9 个百分点。在 AIME24、AIME25 和 IMO-Bench 上,SCRL 在 Qwen3-4B-Base 上进一步将 pass@1 提高了 +3.7 个百分点,将 pass@64 提高了 +4.6 个百分点,表明在困难推理问题上具有更好的探索能力。