SAPO:一种用于训练大语言模型的稳定且高性能的强化学习方法 · AI HOT