HYDRA-X: 原生统一多模态模型与整体视觉分词器
阅读原文· arxiv.orgHYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
整体视觉分词器是统一多模态模型(UMM)的基础,因为它们能将多样化的视觉输入映射到统一的表示空间中。在本文中,我们提出HYDRA-X,这是首个在单一视觉Transformer(ViT)中统一图像与视频分词功能的UMM。我们的设计围绕两个核心挑战展开:高效地将时空重建能力注入原生ViT,以及将图像级和视频级语义感知嵌入到潜在空间中。针对第一个挑战,全面消融实验揭示了两个关键发现:(1)帧级因果时序注意力足以支撑视觉重建,而完整时空注意力反而会降低重建效果;(2)层级化时序压缩显著优于单步替代方案。针对第二个挑战,我们提出一种轻量化解压器,在联合图像-视频教师监督下对时序压缩后的特征进行上采样,从而在紧凑的潜在空间中强化互补的语义结构。基于这一整体分词器,我们进一步提出对编辑流程的原则性改进:源-目标交互应在分词器内部的潜在层进行,而非在大语言模型内部的语义层进行,从而显著提升编辑一致性并加速收敛。在7B稠密模型上实例化后,HYDRA-X在图像与视频理解及生成任务上均取得了强劲性能,为未来基于统一分词器的UMM铺平了道路。