VideoFlexTok:可变长度粗到细视频分词
阅读原文· machinelearning.apple.com把视频 tokenization 从固定网格改成变长 coarse-to-fine,训练效率提升明显,还能做更长的视频。研究角度挺漂亮,但离产品落地还有距离,做视频生成的可以追一下。
VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
VideoFlexTok:灵活长度的由粗到细视频 Token 化
作者Andrei Atanov**、Jesse Allardice、Roman Bachmann+、Oğuzhan Fatih Kar+、Devon Hjelm、David Griffiths、Peter Fu、Afshin Dehghan、Amir Zamir+
查看出版物
视觉 Token 化器将高维原始像素映射为压缩表示,供下游建模使用。除了压缩之外,Token 化器还决定了哪些信息被保留以及如何组织这些信息。视频 Token 化的一种事实标准方法是将视频表示为一个时空三维网格的 Token,每个 Token 捕获原始信号中对应的局部信息。这就要求使用这些 Token 的下游模型(例如文生视频模型)学习逐像素地预测所有低层细节,而不考虑视频本身的复杂度,从而导致学习复杂度很高。我们提出了 VideoFlexTok,它用变长的 Token 序列以由粗到细的方式表示视频——其中前几个 Token(涌现性地)捕捉抽象信息,如语义和运动,后续 Token 则添加精细细节。生成式流解码器能够从任意数量的 Token 中重建出逼真的视频。这种表示结构允许根据下游需求调整 Token 数量,并在相同预算下对比基线方法编码更长的视频。我们在类别条件和文生视频生成任务上评估了 VideoFlexTok,结果表明,与三维网格 Token 相比,它能实现更高效的训练,例如,用 5 倍小的模型(1.1B 对比 5.2B)即可达到相当的生成本质量(gFVD 和 ViCLIP 分数)。最后,我们展示了 VideoFlexTok 如何在不需要过高计算成本的情况下实现长视频生成:仅用 672 个 Token 训练一个 10 秒 81 帧的文生视频模型,Token 数量不到可比三维网格 Token 化器的 8 倍。
- + 瑞士洛桑联邦理工学院(EPFL)
- ** 工作完成于 Apple 任职期间
相关阅读和更新。
TrajTok:学习轨迹 Token 助力更好的视频理解
2026 年 3 月 17 日研究方向 计算机视觉 会议 CVPR
视频模型中的 token 化(通常通过分块处理)会产生过多且冗余的模型 token,这严重限制了视频处理的效率和可扩展性。尽管近期基于轨迹的 token 化方法通过解耦视频时长与 token 数量提供了一个有前景的解决方案,但它们依赖于复杂的外部分割和追踪流程,这些流程既缓慢又与任务无关。我们提出 TrajTok,一种端到端的视频 token 化模块……
FlexTok:将图像重采样为可变长度的一维 token 序列
2025 年 2 月 19 日,研究领域:计算机视觉
本研究与洛桑联邦理工学院(EPFL)合作完成。
图像 token 化通过提供比原始像素更高效处理的压缩离散表示,推动了自回归图像生成的重大进步。虽然传统方法使用二维网格 token 化,但近期像 TiTok 这样的方法已证明,通过消除网格限制,一维 token 化能够实现高质量的生成……

探索机器学习领域的机遇。
我们在机器学习领域的研究每天都在取得新突破。
加入我们