GoLongRL:面向能力的长期上下文强化学习与多任务对齐
阅读原文· arxiv.org开源长上下文RL的配方直接放出来了,数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品,甚至摸到了DeepSeek-R1的水平,做长上下文的值得复现。
GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。
我们提出 GoLongRL,一种完全开源、面向能力的后训练方案,用于长上下文强化学习与可验证奖励(RLVR)。现有的长上下文 RL 方法通常将数据构建视为设计越来越复杂的检索路径的问题,导致任务覆盖同质化,且奖励设计未能充分反映实际长上下文需求。我们的工作包含两项贡献。(1) 面向能力的数据构建与完全开源发布。我们公开释出了一个包含 23K 个 RLVR 样本的数据集、完整的构建流程以及所有训练代码。在长上下文能力分类体系的指导下,该数据集涵盖 9 种任务类型,每种类型均配有对应的自然评估指标。它包含来自既定语料库的精选开源样本,以及从真实源文档(如书籍、学术论文和多轮对话)生成的合成样本,其问答对由这些文档生成。在相同的 vanilla GRPO 设置下,仅使用我们的数据集就超越了闭源的 QwenLong-L1.5 数据集。此外,我们基于该数据训练的 Qwen3-30B-A3B 模型,提供了与 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 相当的长上下文性能,表明更广的覆盖范围与更大的奖励多样性显著有利于长上下文能力的提升。(2) 针对异构多任务优化的 TMN-Reweight。为了解决异构奖励带来的优化挑战,我们提出 TMN-Reweight,它将任务级均值归一化(用于跨任务奖励尺度对齐)与难度自适应加权(用于更可靠的优势估计)相结合。TMN-Reweight 进一步提升了相较于 vanilla GRPO 的平均性能,且在已报告的评估中,通用能力得以保持或提升。