# Echo-Infinity：学习演化记忆实现实时无限视频生成

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-03 08:00
- AIHOT 分数：79
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpyw41ob03vvsli3998nmc40
- 原文链接：https://arxiv.org/abs/2606.04527

## 精选理由

论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

## AI 摘要

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

## 正文

我们提出 Echo Infinity，一种面向实时无限视频生成的自回归（AR）框架，它采用可学习的演化记忆，以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要通过预定义的 KV 缓存调度、固定比例启发式压缩或推理时 RoPE 自适应来管理记忆。这些设计由于缓存窗口有限且忽视了自回归生成噪声，不可避免地丢失历史信息并放大复合误差。受人类记忆巩固机制的启发，Echo-Infinity 用可学习的 Memory Query 替代了手工设计的记忆管理，当过去帧从局部窗口中被逐出时，这些查询会通过注意力机制和门控机制进行更新。这些查询与视频扩散 Transformer（DiTs）进行端到端联合优化，形成一种演化记忆，支持任意压缩比，且计算量恒定，与视频长度无关。它们还充当可泛化的生成先验，即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入了 Unified Relative RoPE Recipe，该方案将 sink frames 锚定在从 id 0 开始，并让最新帧的 id 在训练和推理过程中最多增长到 DiTs 预训练的最大时间 RoPE id，从而使模型摆脱有限 RoPE 约束，并弥合训练-测试 RoPE 外推差距。在长视频和短视频生成中，Echo-Infinity 取得了最先进的性能，并且据我们所知，首次展示了有前景的 24 小时（>1.3 M 帧）实时滚动生成，为无限视频生成指明了一条实用路径。
