# 彩色噪声扩散采样

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-28 08:00
- AIHOT 分数：74
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpqjlfr105k3slnoo00wtyvu
- 原文链接：https://arxiv.org/abs/2605.30332

## 精选理由

扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

## AI 摘要

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

## 正文

扩散模型实现了最先进的图像合成，其生成轨迹从根本上展现出频谱偏好，即先解析低频全局结构，后处理高频细节。传统的随机微分方程（SDE）求解器未能考虑到这一动态过程，它们在整个过程中朴素地注入均匀白噪声，从而滥用了有限的能量预算。在这项工作中，我们建立了一个数学框架，将SDE推理重新理解为一种目标导向的、频率解耦的能量传递。借助这一框架，我们引入了彩色噪声采样（CNS），一种新颖的、无需训练的随机求解器。与注入均匀白噪声不同，CNS采用一种动态的、依赖时间步和频率的调度策略，将注入的能量更高效地分配给尚未解析的结构频段。通过主动利用模型固有的频谱偏好，CNS系统性地将生成分布引导至真实数据流形。大量实验表明，作为一种严格的即插即用式推理时间采样器替代方案，CNS在多种架构（SiT、JiT、FLUX）上显著优于标准的ODE和SDE基线。与ImageNet-256上的标准采样相比，CNS实现了显著的无引导FID降低：在SiT-XL/2上从8.26提升至6.27，在JiT-B/16上从32.39提升至26.69，在JiT-H/16上从11.88提升至8.31，同时在无分类器引导下也获得了一致的相对FID改善。项目页面可访问 https://hadardavidson.github.io/CNS/。
