通过奖励倾斜分布匹配强化少步生成器
阅读原文· arxiv.org这篇直接把分布匹配蒸馏和奖励建模拧在一起,在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法,做图像生成训练和偏好对齐的该看。
本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
近期在少步扩散蒸馏方面取得的进展实现了高效的图像生成,然而让这些模型与人类偏好对齐仍然具有挑战性。我们提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个两阶段框架,它将分布匹配蒸馏与奖励引导的强化学习统一起来,用于少步流生成器。我们证明,最小化与奖励倾斜教师分布之间的KL散度会自然分解为一个分布匹配项和一个奖励最大化项。在第一阶段,我们引入环境一致分布匹配蒸馏(AC-DMD),该算法执行子区间分布匹配,并通过一致性正则化器增强伪造评分目标,以帮助伪造评分模型在有限更新下跟踪变化的生成器分布。在第二阶段,我们联合优化这两项:对于奖励最大化项,我们推导出一个混合策略梯度,它将用于随机中间过渡的GRPO风格估计器与通过确定性最后一步的直接奖励反向传播相结合,并进一步引入步骤子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD在仅用4个推理步骤的情况下,在偏好、美学和组合指标上均取得了最新的最优结果,超越了之前的少步文本到图像生成方法。代码和模型可在 https://github.com/Harahan/RTDMD 获取。