# KPop：用对称二元KL散度解决MoE大模型RL训练推理不一致问题

- 来源：公众号：蚂蚁百灵（Ling）
- 作者：百灵大模型
- 发布时间：2026-06-02 09:00
- AIHOT 分数：50
- AIHOT 链接：https://aihot.virxact.com/items/cmq2l9lfs00a9sl6npvnyzwc9
- 原文链接：https://mp.weixin.qq.com/s/8U9CW9BIciXCab1C_KFRvQ

## AI 摘要

KPop针对MoE大模型强化学习中的训练-推理不一致问题，提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数，根据token概率自适应调整屏蔽边界：稀有token更宽容，高频token更严格。在Ring-flash-2.0（100B总参，6.1B激活）的RLVR训练中，支撑800+步稳定训练，屏蔽比例从10%动态升至30%+（IcePop仅约0.2%）；在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中，基于Ring-2.6-1T（1万亿总参，63B激活）的SWE-bench Verified得分从70.8%提升至76.28%，且仅需更新70%~80% token即可收敛。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
