彩色噪声扩散采样
阅读原文· arxiv.org扩散模型采样时的白噪声注入一直很粗糙,这篇论文用动态调制的有色噪声把能量怼到未解析的频段,在多个模型上 FID 直接骨折,而且完全训练无关,拿来就能用。
扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。
扩散模型实现了最先进的图像合成,其生成轨迹从根本上展现出频谱偏好,即先解析低频全局结构,后处理高频细节。传统的随机微分方程(SDE)求解器未能考虑到这一动态过程,它们在整个过程中朴素地注入均匀白噪声,从而滥用了有限的能量预算。在这项工作中,我们建立了一个数学框架,将SDE推理重新理解为一种目标导向的、频率解耦的能量传递。借助这一框架,我们引入了彩色噪声采样(CNS),一种新颖的、无需训练的随机求解器。与注入均匀白噪声不同,CNS采用一种动态的、依赖时间步和频率的调度策略,将注入的能量更高效地分配给尚未解析的结构频段。通过主动利用模型固有的频谱偏好,CNS系统性地将生成分布引导至真实数据流形。大量实验表明,作为一种严格的即插即用式推理时间采样器替代方案,CNS在多种架构(SiT、JiT、FLUX)上显著优于标准的ODE和SDE基线。与ImageNet-256上的标准采样相比,CNS实现了显著的无引导FID降低:在SiT-XL/2上从8.26提升至6.27,在JiT-B/16上从32.39提升至26.69,在JiT-H/16上从11.88提升至8.31,同时在无分类器引导下也获得了一致的相对FID改善。项目页面可访问 https://hadardavidson.github.io/CNS/。