DenoiseRL:通过恢复嘈杂前缀来引导推理模型
阅读原文· arxiv.org做 RL for reasoning 的团队该看这篇,它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”,可能降低对昂贵 teacher 的依赖,是个架构层面的新思路。
DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。
强化学习已成为推动大语言模型推理能力提升的核心范式,但现有方法大多仍依赖更强的教师模型或经过精挑细选的困难数据集,这限制了能力的可扩展提升。在本文中,我们提出 DenoiseRL,这是一个强化学习框架,它通过基于弱模型失败案例的恢复导向优化来替代外部监督。DenoiseRL 不依赖更强的监督或精心设计的数据,而是直接从错误的推理痕迹中学习,将其转化为改进的机会,从而使训练更具可扩展性,减少对外部资源的依赖。这产生了更丰富、更多样的学习信号,提升了从不完美模型行为中进行探索的效率。因此,DenoiseRL 在提升推理性能和整体训练效率的同时,降低了对昂贵数据清洗或更强教师模型的需求。实验表明,DenoiseRL 在多项竞争性的数学推理和通用推理基准测试中持续优于强在线策略 RL 基线,并且随着训练难度增加,能促进更强的自我修正行为,从而突显出一条有效且可扩展的大语言模型推理改进替代路径。