Orange AI@oran_ge

2026-06-19 06:40·14天前

AI 摘要

OpenAI探索逆向对齐思路：训练模型做好事是否能像坏事一样泛化？研究人员使用涉及诚实、认知谦逊、可纠正性等特质的对话数据，覆盖健康、教育等领域，通过RL训练。实验发现：训练域内模型更诚实；在44个未见测试中，欺骗、谄媚、有害建议等均下降；面对对抗提示或恶意微调，模型更有韧性，且不损失正常指令能力。表明RL可强化道德底层逻辑。

OpenAI 发布的新论文太有趣了，有点探索人性底层原理的意味。

业界研究发现在对齐大模型的时候，有个很糟糕的现象叫 emergent misalignment（涌现失调）：一个模型如果在训练时被教着做一件坏事，比如写不安全的代码，它会自己泛化到其他领域，包括健康、教育、科学、法律等等。也就是说，坏行为会被泛化。

OpenAI 把问题反过来想：那好行为会不会也泛化？如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正，它会不会在别的领域也变得更好？

于是他们造了一批贴近现实的对话数据，专门测这些特质： -诚实 -认知谦逊（epistemic humility，就是"我不确定"的时候能说出来） -元认知透明（能解释自己的思考过程） -可纠正性（corrigibility，被指错能认） -普遍的公平 -对人的关心

数据覆盖健康、教育、科学、法律、工程这些领域。然后用 RL 训练，只混进去一小部分这种数据，其余还是常规训练数据。

实验结束后，有三个核心发现：

第一，在训练领域内，模型确实变得更诚实、更透明、更容易认错。

第二，在训练领域外，44 个独立的、训练时没见过的评测上，模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练，非健康领域也变好了。

第三，这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调，都更难把它推向坏行为。而且模型并没有变得"不可塑造"，正常指令它还是听的，只是对坏的方向变固执了。

这篇论文的启示是，RL 不仅可以强化代码，也可以强化道德。也许对齐超级 AI 没有想象中那么复杂，只对齐底层逻辑就有很好的效果。

这跟人是很像的，人的各种行为在其底层存在一致性，通过一些小事就能看到一个人的底色。

很有意思。

论文地址：https://alignment.openai.com/beneficial-rl/

OpenAI 大佬观点安全/对齐

在 X 查看原推导出 Markdown

Orange AI@oran_ge · X

54导出 Markdown