Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
阅读原文· arxiv.org把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
因果扩散 Transformer 的自回归视频扩散已成为实时流式视频生成和基于动作条件的交互式世界模型的主要范式。在本工作中,我们将先进的扩散蒸馏框架 rCM 扩展到自回归视频扩散。rCM 的核心思想在于扩散蒸馏中前向散度(由一致性模型 CMs 代表)与反向散度(由分布匹配蒸馏 DMD 代表)之间的互补性。这一思想自然延续到了自回归设置中,其中教师强制(TF)提供了一种离线的、前向散度的因果训练范式,而自强制(SF)则对应于一种在线的、反向散度的精炼过程。
我们的贡献包括:(1)通过大量实验,我们证明了教师强制 CM 目前是与自强制 DMD 作为初始化策略的最佳互补;(2)我们首次实现了基于教师强制的连续时间 CM(例如 sCM/MeanFlow)用于自回归视频扩散,这得益于我们自定义掩码的 FlashAttention-2 JVP 内核,与离散时间 CM(dCM)相比收敛速度提升了 10 倍;(3)我们提出了 Causal-rCM,一个领先的、统一的、可扩展的算法-基础设施开源方案,用于扩散蒸馏和因果训练;(4)我们在逐帧和逐块两种设置下均实现了最先进的流式视频生成性能,且仅使用合成数据进行训练。
值得注意的是,我们经过蒸馏的 2 步因果 Wan2.1-1.3B 模型仅需 1 或 2 个采样步即可达到 84.63 的 VBench-T2V 得分。我们进一步将 Causal-rCM 应用于 Cosmos 3——一个用于物理 AI 的先进全模态世界基础模型,具备基于动作条件的生成能力,从而实现了交互式世界模型。