方向对齐缓解大语言模型强化学习中的奖励漏洞 · AI HOT