Echo-Infinity：学习演化记忆实现实时无限视频生成

2026-06-03 08:00·30天前

精选理由

论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

AI 摘要

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

AI 翻译 · 中文

我们提出 Echo Infinity，一种面向实时无限视频生成的自回归（AR）框架，它采用可学习的演化记忆，以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要通过预定义的 KV 缓存调度、固定比例启发式压缩或推理时 RoPE 自适应来管理记忆。这些设计由于缓存窗口有限且忽视了自回归生成噪声，不可避免地丢失历史信息并放大复合误差。受人类记忆巩固机制的启发，Echo-Infinity 用可学习的 Memory Query 替代了手工设计的记忆管理，当过去帧从局部窗口中被逐出时，这些查询会通过注意力机制和门控机制进行更新。这些查询与视频扩散 Transformer（DiTs）进行端到端联合优化，形成一种演化记忆，支持任意压缩比，且计算量恒定，与视频长度无关。它们还充当可泛化的生成先验，即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入了 Unified Relative RoPE Recipe，该方案将 sink frames 锚定在从 id 0 开始，并让最新帧的 id 在训练和推理过程中最多增长到 DiTs 预训练的最大时间 RoPE id，从而使模型摆脱有限 RoPE 约束，并弥合训练-测试 RoPE 外推差距。在长视频和短视频生成中，Echo-Infinity 取得了最先进的性能，并且据我们所知，首次展示了有前景的 24 小时（>1.3 M 帧）实时滚动生成，为无限视频生成指明了一条实用路径。

HuggingFace Daily Papers（社区热门论文）

精选79导出 Markdown

Echo-Infinity：学习演化记忆实现实时无限视频生成

2026-06-03 08:00·30天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

arXiv视频论文/研究

阅读原文