# "拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

- 来源：IT之家（RSS）
- 发布时间：2026-05-22 13:51
- AIHOT 分数：62
- AIHOT 链接：https://aihot.virxact.com/items/cmpgirwz10fs1sljwkzo9gs7r
- 原文链接：https://www.ithome.com/0/953/848.htm

## AI 摘要

字节跳动开源了轻量级多模态模型Lance，其激活参数量为3B。该模型采用原生统一架构，在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术，平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段，数据规模约1.9T标记，计算预算控制在128张GPU内。基准测试表明，Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

## 正文

IT之家 5 月 22 日消息，字节跳动最新发布开源多模态模型 Lance，激活参数量只有 3B，是一款原生统一的图像、视频多模态模型。

与把“理解”和“生成”拆成多个模块再拼接的常见方案不同，Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体系，目标是让 1 个模型同时处理 X2T、X2I、X2V 3 类输出任务。

IT之家援引论文内容，理解任务依赖与语言对齐紧密的高层语义特征；生成任务则需要保留纹理、几何结构和时序动态的低层连续表示，而 Lance 则兼顾和平衡这两种相反的需求。

Lance 为此采用共享上下文和能力解耦并行的设计：所有文本、图像、视频输入先转成统一交错序列，再交给双流专家架构分别负责理解与生成。

在具体结构上，文本标记来自 Qwen2.5-VL 嵌入层；偏理解的视觉输入由 Qwen2.5-VL 的 ViT 编码器提取语义视觉标记。

偏生成的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成连续潜在表示，含 16× 空间下采样和 4× 时间下采样。

随后，模型在完整上下文上使用广义 3D 因果注意力，文本采用因果注意力，视觉标记采用双向注意力。

Lance 还引入了 MaPE，即 Modality-Aware Rotary Positional Encoding（模态感知旋转位置编码）。

它通过给不同模态组添加固定时间偏移，不破坏图像和视频内部的空间结构与时间顺序的前提下，解决同一序列中多类视觉标记边界混淆的问题。

训练方面，Lance 分 4 个阶段推进：

预训练阶段使用约 1B 图文对和 140M 视频文本对，总计 1.5T 标记；

持续训练阶段引入编辑、主体驱动生成和多模态理解数据，规模约 300B 标记；

监督微调阶段使用 72B 标记提升指令遵循和身份一致性；

强化学习阶段采用 Group Relative Policy Optimization（组相对策略优化），并借助 PaddleOCR 作为奖励模型提升文字渲染与图文对齐。全部训练预算控制在最多 128 张 GPU 内。

基准结果显示，Lance 在统一模型中表现突出：

图像生成上，GenEval 总分 0.90，和 TUNA 并列前列；

视频生成上，VBench 总分 85.11，高于 TUNA 的 84.06，也超过 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69；

图像编辑上，GEdit-Bench 达 7.30；

视频理解上，MVBench 达 62.0，高于 Show-o2（7B）的 55.7。

开源层面，Lance 采用 Apache 2.0 许可，权重已在 Hugging Face 提供，推理环境要求 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。

参考

项目官网

Github 仓库

HuggingFace 模型库

arXiv 技术论文
