蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。
团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。
从 IcePop 到 KPop——我们的团队持续推动大型 MoE 模型的 RL 训练稳定性。👇
KPop 用自适应二进制 KL 区域取代了固定比例掩码,该区域与每个 token 的固有噪声相匹配。更新更加稳健,实现稳定的长期智能体 RL。
Ring-2.6-1T → SWE-bench Verified 上 76+,纯 RL。
祝贺 @Jia__Guo 及团队!
博客:https://ringtech.notion.site/kpop