公众号：蚂蚁百灵（Ling）

KPop：用对称二元KL散度解决MoE大模型RL训练推理不一致问题

2026-06-02 09:00·31天前·百灵大模型

AI 摘要

KPop针对MoE大模型强化学习中的训练-推理不一致问题，提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数，根据token概率自适应调整屏蔽边界：稀有token更宽容，高频token更严格。在Ring-flash-2.0（100B总参，6.1B激活）的RLVR训练中，支撑800+步稳定训练，屏蔽比例从10%动态升至30%+（IcePop仅约0.2%）；在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中，基于Ring-2.6-1T（1万亿总参，63B激活）的SWE-bench Verified得分从70.8%提升至76.28%，且仅需更新70%~80% token即可收敛。

公众号正文需在微信内阅读，站内仅提供摘要。

推理数据/训练论文/研究

在微信中打开原文导出 Markdown

公众号：蚂蚁百灵（Ling）

50导出 Markdown