RiT:在表示空间中使用原生扩散变换器已足够
阅读原文· arxiv.org这篇论文没发明新架构,但通过剖析DINOv2特征的统计属性,证明简单结构在表示空间也能做出SOTA,对做图像生成的人来说是个省钱省参数的好思路。
本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现,尽管像素与DINOv2的内在维度相近,但DINOv2在几何统计特性(如有效秩、协方差条件等)上表现更优,使回归过程更稳定。基于此,我们提出了表示图像变换器(RiT),它使用冻结的DINOv2特征,通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上,RiT性能优于参数量更多的DiT^DH-XL模型,且生成的常微分方程仅需少量步骤即可高效求解。
基于x预测(x-prediction)的流匹配——即回归到干净数据点而非环境速度——已知可以在像素空间中有效利用低维流形结构(li2025back)。
我们探究一个预训练表征空间,在包含内在维度相当的低维数据流形的同时,是否能为流匹配学习提供更有利的分布。
通过沿四个几何轴比较像素、SD-VAE和DINOv2特征,我们发现像素和DINOv2具有几乎相同的内在维度(均为d≈33),但DINOv2展现出7.3倍更高的有效秩、35倍更好的协方差条件数、11.5倍更低的超额峰度,以及1.7倍更低的流形上插值误差;SD-VAE潜变量始终处于中间水平,这表明优势源于表征学习目标而非单纯的压缩。
这些统计特性使流匹配回归变得良态,并消除了先前DINOv2扩散方法中使用的专门预测头或黎曼传输的需求。
我们提出了表征图像变换器(Representation Image Transformer, RiT):一个在冻结的DINOv2特征上通过x预测训练的普通扩散Transformer,仅增加了维度感知噪声调度和联合[CLS]-patch建模。
在ImageNet 256×256上,RiT无需引导即可达到FID 1.45,在无分类器引导下达到1.14,以少19%的参数(676M对839M)超越了DiT^DH-XL。
得到的ODE在粗离散化下可高效求解:在无分类器引导下,5步Heun方法即可达到FID 2.0,10步达到1.25,无需知识蒸馏或一致性训练。
代码见 https://github.com/lezhang7/RiT。