OpenAI 新研究:真实情境 RL 训练使模型将安全行为迁移到未训练任务 · AI HOT