69
AI 摘要
OpenAI 针对对齐中的“涌现失调”反向探索:若模型在某领域被强化诚实、认知谦逊、可纠正等特质,好行为是否泛化?他们用 RL 训练模型,仅在健康、教育等部分对话数据中强化这些特质,其余仍用常规数据。结果发现:训练领域内模型更诚实透明;在 44 个未见评测上,欺骗、谄媚、reward hacking、有害建议等全部下降;面对 adversarial prompt 和恶意微调时韧性更强,正常指令不受影响。论文指出 RL 不仅能强化代码,也能强化道德。
This tweet has been promoted to the English, Japanese, and Korean worlds
Feel the power of new multilingual recommendation algorithms!
OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。 O...