Echo-Infinity:学习演化记忆实现实时无限视频生成
阅读原文· arxiv.org论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化,首次做到24小时实时无限生成,这对视频生成走出‘短视频玩具’阶段是个决定性的信号。
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
我们提出 Echo Infinity,一种面向实时无限视频生成的自回归(AR)框架,它采用可学习的演化记忆,以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要通过预定义的 KV 缓存调度、固定比例启发式压缩或推理时 RoPE 自适应来管理记忆。这些设计由于缓存窗口有限且忽视了自回归生成噪声,不可避免地丢失历史信息并放大复合误差。受人类记忆巩固机制的启发,Echo-Infinity 用可学习的 Memory Query 替代了手工设计的记忆管理,当过去帧从局部窗口中被逐出时,这些查询会通过注意力机制和门控机制进行更新。这些查询与视频扩散 Transformer(DiTs)进行端到端联合优化,形成一种演化记忆,支持任意压缩比,且计算量恒定,与视频长度无关。它们还充当可泛化的生成先验,即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入了 Unified Relative RoPE Recipe,该方案将 sink frames 锚定在从 id 0 开始,并让最新帧的 id 在训练和推理过程中最多增长到 DiTs 预训练的最大时间 RoPE id,从而使模型摆脱有限 RoPE 约束,并弥合训练-测试 RoPE 外推差距。在长视频和短视频生成中,Echo-Infinity 取得了最先进的性能,并且据我们所知,首次展示了有前景的 24 小时(>1.3 M 帧)实时滚动生成,为无限视频生成指明了一条实用路径。