Flow-DPPO：面向流匹配模型的散度近端策略优化

2026-06-09 08:00·24天前

精选理由

用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

AI 摘要

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

AI 翻译 · 中文

近期研究已证明，在线强化学习（RL）能够显著提升图像与视频生成中流匹配模型的质量和对齐效果。Flow-GRPO 和 CPS 等方法将去噪过程建模为马尔可夫决策过程，并采用 PPO 风格的比率裁剪来强制约束信任区域。然而，我们认为比率裁剪在结构上并不适用于流模型：新旧策略之间的概率比率是对真实策略散度的噪声性单样本估计，这会导致在轨迹的某些区域过度约束，而在其他区域约束不足。我们提出了 Flow-DPPO（流散度近端策略优化），该方法用散度近端约束替代比率裁剪。一个关键观察是，流模型中每步策略服从高斯分布，这使得新旧策略之间 KL 散度的计算既精确又廉价。Flow-DPPO 采用非对称的散度掩码，仅当梯度更新同时偏离信任区域并违反散度阈值时才阻止其更新。实验表明，Flow-DPPO 在获得更高奖励的同时具备更好的 KL 近端效率，能够缓解灾难性遗忘、促进平衡的多目标优化，并在比率裁剪性能下降的情况下实现稳定的多轮次训练。代码和模型已开源至 https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO。

HuggingFace Daily Papers（社区热门论文）

精选73导出 Markdown