Flow-DPPO: 面向流匹配模型的散度近端策略优化
阅读原文· arxiv.org用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
近期研究已证明,在线强化学习(RL)能够显著提升图像与视频生成中流匹配模型的质量和对齐效果。Flow-GRPO 和 CPS 等方法将去噪过程建模为马尔可夫决策过程,并采用 PPO 风格的比率裁剪来强制约束信任区域。然而,我们认为比率裁剪在结构上并不适用于流模型:新旧策略之间的概率比率是对真实策略散度的噪声性单样本估计,这会导致在轨迹的某些区域过度约束,而在其他区域约束不足。我们提出了 Flow-DPPO(流散度近端策略优化),该方法用散度近端约束替代比率裁剪。一个关键观察是,流模型中每步策略服从高斯分布,这使得新旧策略之间 KL 散度的计算既精确又廉价。Flow-DPPO 采用非对称的散度掩码,仅当梯度更新同时偏离信任区域并违反散度阈值时才阻止其更新。实验表明,Flow-DPPO 在获得更高奖励的同时具备更好的 KL 近端效率,能够缓解灾难性遗忘、促进平衡的多目标优化,并在比率裁剪性能下降的情况下实现稳定的多轮次训练。代码和模型已开源至 https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO。