彩色噪声扩散采样

2026-05-28 08:00·36天前

精选理由

扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

AI 摘要

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

AI 翻译 · 中文

扩散模型实现了最先进的图像合成，其生成轨迹从根本上展现出频谱偏好，即先解析低频全局结构，后处理高频细节。传统的随机微分方程（SDE）求解器未能考虑到这一动态过程，它们在整个过程中朴素地注入均匀白噪声，从而滥用了有限的能量预算。在这项工作中，我们建立了一个数学框架，将SDE推理重新理解为一种目标导向的、频率解耦的能量传递。借助这一框架，我们引入了彩色噪声采样（CNS），一种新颖的、无需训练的随机求解器。与注入均匀白噪声不同，CNS采用一种动态的、依赖时间步和频率的调度策略，将注入的能量更高效地分配给尚未解析的结构频段。通过主动利用模型固有的频谱偏好，CNS系统性地将生成分布引导至真实数据流形。大量实验表明，作为一种严格的即插即用式推理时间采样器替代方案，CNS在多种架构（SiT、JiT、FLUX）上显著优于标准的ODE和SDE基线。与ImageNet-256上的标准采样相比，CNS实现了显著的无引导FID降低：在SiT-XL/2上从8.26提升至6.27，在JiT-B/16上从32.39提升至26.69，在JiT-H/16上从11.88提升至8.31，同时在无分类器引导下也获得了一致的相对FID改善。项目页面可访问 https://hadardavidson.github.io/CNS/。

HuggingFace Daily Papers（社区热门论文）

精选74导出 Markdown

彩色噪声扩散采样

2026-05-28 08:00·36天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

图像生成论文/研究

阅读原文