DPO与RLHF等价性的条件性:隐含假设、失效模式与可证明对齐 · AI HOT