"拼好模":字节跳动开源轻量原生统一多模态 AI 模型 Lance
阅读原文· ithome.com字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。
IT之家 5 月 22 日消息,字节跳动最新发布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。
与把“理解”和“生成”拆成多个模块再拼接的常见方案不同,Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体系,目标是让 1 个模型同时处理 X2T、X2I、X2V 3 类输出任务。
IT之家援引论文内容,理解任务依赖与语言对齐紧密的高层语义特征;生成任务则需要保留纹理、几何结构和时序动态的低层连续表示,而 Lance 则兼顾和平衡这两种相反的需求。
Lance 为此采用共享上下文和能力解耦并行的设计:所有文本、图像、视频输入先转成统一交错序列,再交给双流专家架构分别负责理解与生成。
在具体结构上,文本标记来自 Qwen2.5-VL 嵌入层;偏理解的视觉输入由 Qwen2.5-VL 的 ViT 编码器提取语义视觉标记。
偏生成的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成连续潜在表示,含 16× 空间下采样和 4× 时间下采样。
随后,模型在完整上下文上使用广义 3D 因果注意力,文本采用因果注意力,视觉标记采用双向注意力。
Lance 还引入了 MaPE,即 Modality-Aware Rotary Positional Encoding(模态感知旋转位置编码)。
它通过给不同模态组添加固定时间偏移,不破坏图像和视频内部的空间结构与时间顺序的前提下,解决同一序列中多类视觉标记边界混淆的问题。