OpenAI 新论文：RL 训练模型“好行为”也会泛化，提升诚实与安全性

Orange AI@oran_ge

2026-06-20 22:54·15小时前

AI 摘要

OpenAI 针对对齐中的“涌现失调”反向探索：若模型在某领域被强化诚实、认知谦逊、可纠正等特质，好行为是否泛化？他们用 RL 训练模型，仅在健康、教育等部分对话数据中强化这些特质，其余仍用常规数据。结果发现：训练领域内模型更诚实透明；在 44 个未见评测上，欺骗、谄媚、reward hacking、有害建议等全部下降；面对 adversarial prompt 和恶意微调时韧性更强，正常指令不受影响。论文指出 RL 不仅能强化代码，也能强化道德。

This tweet has been promoted to the English， Japanese， and Korean worlds

Feel the power of new multilingual recommendation algorithms！

Orange AIOpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。 O...

OpenAI安全/对齐论文/研究

在 X 查看原推

Orange AI@oran_ge · X

2026-06-20 22:54·15小时前

AI 摘要

This tweet has been promoted to the English， Japanese， and Korean worlds

Feel the power of new multilingual recommendation algorithms！

OpenAI安全/对齐论文/研究

在 X 查看原推x.com