VideoFlexTok：可变长度粗到细视频分词

2026-07-02 08:00·1天前

精选理由

把视频 tokenization 从固定网格改成变长 coarse-to-fine，训练效率提升明显，还能做更长的视频。研究角度挺漂亮，但离产品落地还有距离，做视频生成的可以追一下。

AI 摘要

VideoFlexTok提出一种可变长度token序列的视频表示方法，采用粗到细结构——首个token捕捉语义和运动等抽象信息，后续token添加精细细节，生成流解码器支持任意token数量的视频重建。相比传统3D网格分词，该结构允许根据下游需求调整token数，在相同预算下编码更长视频。在类别和文本到视频生成任务中，VideoFlexTok以1.1B参数（5.2B的1/5）达到可比生成质量（gFVD和ViCLIP Score）。训练一个处理10秒81帧视频的文本到视频模型仅需672个token，比同等3D网格分词器少8倍。

AI 翻译 · 中文

研究方向计算机视觉会议 ICML

内容类型论文发表于 2026 年 7 月

VideoFlexTok：灵活长度的由粗到细视频 Token 化

作者Andrei Atanov**、Jesse Allardice、Roman Bachmann+、Oğuzhan Fatih Kar+、Devon Hjelm、David Griffiths、Peter Fu、Afshin Dehghan、Amir Zamir+

查看出版物

视觉 Token 化器将高维原始像素映射为压缩表示，供下游建模使用。除了压缩之外，Token 化器还决定了哪些信息被保留以及如何组织这些信息。视频 Token 化的一种事实标准方法是将视频表示为一个时空三维网格的 Token，每个 Token 捕获原始信号中对应的局部信息。这就要求使用这些 Token 的下游模型（例如文生视频模型）学习逐像素地预测所有低层细节，而不考虑视频本身的复杂度，从而导致学习复杂度很高。我们提出了 VideoFlexTok，它用变长的 Token 序列以由粗到细的方式表示视频——其中前几个 Token（涌现性地）捕捉抽象信息，如语义和运动，后续 Token 则添加精细细节。生成式流解码器能够从任意数量的 Token 中重建出逼真的视频。这种表示结构允许根据下游需求调整 Token 数量，并在相同预算下对比基线方法编码更长的视频。我们在类别条件和文生视频生成任务上评估了 VideoFlexTok，结果表明，与三维网格 Token 相比，它能实现更高效的训练，例如，用 5 倍小的模型（1.1B 对比 5.2B）即可达到相当的生成本质量（gFVD 和 ViCLIP 分数）。最后，我们展示了 VideoFlexTok 如何在不需要过高计算成本的情况下实现长视频生成：仅用 672 个 Token 训练一个 10 秒 81 帧的文生视频模型，Token 数量不到可比三维网格 Token 化器的 8 倍。

+ 瑞士洛桑联邦理工学院（EPFL）
** 工作完成于 Apple 任职期间

相关阅读和更新。

TrajTok：学习轨迹 Token 助力更好的视频理解

2026 年 3 月 17 日研究方向计算机视觉会议 CVPR

视频模型中的 token 化（通常通过分块处理）会产生过多且冗余的模型 token，这严重限制了视频处理的效率和可扩展性。尽管近期基于轨迹的 token 化方法通过解耦视频时长与 token 数量提供了一个有前景的解决方案，但它们依赖于复杂的外部分割和追踪流程，这些流程既缓慢又与任务无关。我们提出 TrajTok，一种端到端的视频 token 化模块……

FlexTok：将图像重采样为可变长度的一维 token 序列

2025 年 2 月 19 日，研究领域：计算机视觉

本研究与洛桑联邦理工学院（EPFL）合作完成。

图像 token 化通过提供比原始像素更高效处理的压缩离散表示，推动了自回归图像生成的重大进步。虽然传统方法使用二维网格 token 化，但近期像 TiTok 这样的方法已证明，通过消除网格限制，一维 token 化能够实现高质量的生成……

探索机器学习领域的机遇。

我们在机器学习领域的研究每天都在取得新突破。

加入我们

Apple Machine Learning Research（RSS）

精选56导出 Markdown