OpenAI 新论文:RL 训练模型“好行为”也会泛化,提升诚实与安全性 · AI HOT