KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分

Ant Ling@AntLingAGI

精选68

2026-05-26 23:14·25天前

精选理由

蚂蚁团队把 IcePop 升级成 KPop，从固定掩码变成自适应 KL 区域，思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+，做 agentic RL 训练的同学值得翻一下博客。

AI 摘要

团队推出 KPop，用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 方法中的固定比例掩码，能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下，仅通过纯 RL 训练，在 SWE-bench Verified 上取得了超过 76 分的成绩。

AI 翻译 · 中文

从 IcePop 到 KPop——我们的团队持续推动大型 MoE 模型的 RL 训练稳定性。👇

KPop 用自适应二进制 KL 区域取代了固定比例掩码，该区域与每个 token 的固有噪声相匹配。更新更加稳健，实现稳定的长期智能体 RL。

Ring-2.6-1T → SWE-bench Verified 上 76+，纯 RL。

祝贺 @Jia__Guo 及团队！

博客：https://ringtech.notion.site/kpop

Jia GuoCurious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we released IcePop to stabilize MoE RL with doubl...

智能体数据/训练编码论文/研究

在 X 查看原推

Ant Ling@AntLingAGI · X