KPop:稳定大规模MoE模型强化学习训练的新技术 · AI HOT