# new paper： iREPA diffusion models are a renderer of their underlying representations. with this new…

- 来源：Saining Xie (@sainingxie)
- 发布时间：2025-12-16 07:28
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnz6dpf402amsl0fxz3kh21f
- 原文链接：https://x.com/sainingxie/status/2000709656491286870

## 精选理由

颠覆认知：小20倍视觉编码器也能驱动高质量生成，空间结构才是关键

## AI 摘要

新论文：iREPA

扩散模型是其底层表征的渲染器。通过这种新设置，我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索，过去三个月我们学到了很多

ps. 这也是我们对一种新型线上"饮水机效应"的小实验，我很喜欢看到这种现象。让我们争论、讨论，然后用真正的努力将其转化为正经科学

[引用 @1jaskiratsingh]：‼️ 表征对生成很重要！但事实证明，我们对表征如何帮助生成的理解一直都是错的 ‼️

我们之前的想法：（我们错了）
❌ 更大的视觉编码器 → 更好的表征 → 更好的生成
❌ 更好的全局语义 → 更好的表征 → 更好的生成

结果发现：
🤯 在表征对齐方面，小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能
🤯 线性探测准确率约 20%（全局语义的衡量指标）的视觉编码器可以胜过准确率 >80% 的编码器
🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升 ‼️

🚨 介绍：什么对表征对齐重要？全局信息还是空间结构 🚨

TL;DR：
✅ 更好的全局语义信息 ≠ 更好的生成
✅ 空间结构（而非全局语义）驱动表征的生成性能
✅ 我们提出 iREPA：仅需 3 行代码，强调空间结构迁移，并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度

在 @AdobeResearch 的激动人心的项目，与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏

对我来说这也是一次特别有趣且独特的经历，在项目的每一步我们都在证明自己的偏见是错误的 😆

还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes，他们在 X 上的评论开启了这一方向的探索 🫡

论文：https://arxiv.org/abs/2512.10794
代码：https://github.com/End2End-Diffusion/iREPA
项目页面：https://end2end-diffusion.github.io/irepa

更多细节见线程：[1/n] 🧵

## 正文

new paper: iREPA

扩散模型是其底层表征的渲染器。借助这一新设定，我们能够更清晰地洞察那些表征究竟关乎什么。Jas 开启了一段自发的探索之旅，过去三个月里我们学到了很多。

附注：这也是我们在一种新型在线饮水机效应上做的小实验——我很喜欢看到这种效应。让我们争论、讨论，然后将其转化为真正付出努力的严谨科学。

### 引用推文

> Jaskirat Singh：!!️ Representations matter for generation! But turns out our understanding of how representations help generation was wrong all along !!️ What we thought: (we w...
