RiT：在表示空间中使用原生扩散变换器已足够

2026-05-21 08:00·43天前

精选理由

这篇论文没发明新架构，但通过剖析DINOv2特征的统计属性，证明简单结构在表示空间也能做出SOTA，对做图像生成的人来说是个省钱省参数的好思路。

AI 摘要

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，但DINOv2在几何统计特性（如有效秩、协方差条件等）上表现更优，使回归过程更稳定。基于此，我们提出了表示图像变换器（RiT），它使用冻结的DINOv2特征，通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上，RiT性能优于参数量更多的DiT^DH-XL模型，且生成的常微分方程仅需少量步骤即可高效求解。

AI 翻译 · 中文

基于x预测（x-prediction）的流匹配——即回归到干净数据点而非环境速度——已知可以在像素空间中有效利用低维流形结构（li2025back）。

我们探究一个预训练表征空间，在包含内在维度相当的低维数据流形的同时，是否能为流匹配学习提供更有利的分布。

通过沿四个几何轴比较像素、SD-VAE和DINOv2特征，我们发现像素和DINOv2具有几乎相同的内在维度（均为d≈33），但DINOv2展现出7.3倍更高的有效秩、35倍更好的协方差条件数、11.5倍更低的超额峰度，以及1.7倍更低的流形上插值误差；SD-VAE潜变量始终处于中间水平，这表明优势源于表征学习目标而非单纯的压缩。

这些统计特性使流匹配回归变得良态，并消除了先前DINOv2扩散方法中使用的专门预测头或黎曼传输的需求。

我们提出了表征图像变换器（Representation Image Transformer, RiT）：一个在冻结的DINOv2特征上通过x预测训练的普通扩散Transformer，仅增加了维度感知噪声调度和联合[CLS]-patch建模。

在ImageNet 256×256上，RiT无需引导即可达到FID 1.45，在无分类器引导下达到1.14，以少19%的参数（676M对839M）超越了DiT^DH-XL。

得到的ODE在粗离散化下可高效求解：在无分类器引导下，5步Heun方法即可达到FID 2.0，10步达到1.25，无需知识蒸馏或一致性训练。

代码见 https://github.com/lezhang7/RiT。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown