HYDRA-X：原生统一多模态模型与整体视觉分词器

2026-06-11 08:00·21天前

精选理由

HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

AI 摘要

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

AI 翻译 · 中文

整体视觉分词器是统一多模态模型（UMM）的基础，因为它们能将多样化的视觉输入映射到统一的表示空间中。在本文中，我们提出HYDRA-X，这是首个在单一视觉Transformer（ViT）中统一图像与视频分词功能的UMM。我们的设计围绕两个核心挑战展开：高效地将时空重建能力注入原生ViT，以及将图像级和视频级语义感知嵌入到潜在空间中。针对第一个挑战，全面消融实验揭示了两个关键发现：（1）帧级因果时序注意力足以支撑视觉重建，而完整时空注意力反而会降低重建效果；（2）层级化时序压缩显著优于单步替代方案。针对第二个挑战，我们提出一种轻量化解压器，在联合图像-视频教师监督下对时序压缩后的特征进行上采样，从而在紧凑的潜在空间中强化互补的语义结构。基于这一整体分词器，我们进一步提出对编辑流程的原则性改进：源-目标交互应在分词器内部的潜在层进行，而非在大语言模型内部的语义层进行，从而显著提升编辑一致性并加速收敛。在7B稠密模型上实例化后，HYDRA-X在图像与视频理解及生成任务上均取得了强劲性能，为未来基于统一分词器的UMM铺平了道路。

arXiv

HuggingFace Daily Papers（社区热门论文）

精选73导出 Markdown