# 字节跳动开源全模态模型Lance：轻量高效的"拼好模"

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-19 07:00
- AIHOT 分数：59
- AIHOT 链接：https://aihot.virxact.com/items/cmpbu1lmr1a8xslnz28nhamxc
- 原文链接：https://x.com/karminski3/status/2056510142045213136

## AI 摘要

字节跳动开源了全模态模型Lance，其激活参数量仅为3B，却能同时处理文本、图片和视频的输入与输出，完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本，其创新在于采用共享交错序列统一语义空间，并引入专用专家模块协调理解与生成的互斥关系，使得小参数模型性能接近更大规模模型。训练仅需128张A100，对端侧部署和多模态Agent应用具有重要价值。

## 正文

究极"拼好模"出现了！ 字节跳动 Lance！

字节跳动刚发布了一个开源模型 Lance， 激活参数量只有 3B. 但是这个模型可以接受文本， 图片， 视频输入， 然后同时可以输出文本， 图片， 视频！

所以这一个模型就能完成像图片理解， 视频理解， 文生图， 图生图， 图片编辑， 文生视频， 图生视频， 视频编辑等任务.

而训练团队在技术报告中透露， 训练成本仅仅是 128 涨 A100 显卡 （按照大厂算力来说纯纯是把冗余算力拿来用了）.

那为啥说是"拼好模"呢？ 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT （用来看图和视频）， 而视觉输出模块是 Wan2.2_VAE （用来画画）. 而模型本体是两个：

Lance_3B （用来做图片的理解、生成或编辑任务）
Lance_3B_Video （用来做视频相关的任务， 比如文生视频、图生视频）

所以， 这完全是一个研究性项目了， 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 （LLM） 和扩散模型 （Diffusion） 硬拼接在一起 （即所谓的 Pipeline 方案） .

而是在一个共享的交错序列 （Interleaved sequence） 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间， 让模型的理解能力和性能更好. （从评测来看3B就接近了许多10B甚至20B模型的水平）

另外还引入了多任务协同. 简单来讲， 理解任务 （图片转向量） 和生成任务 （向量转图片） 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块， 成功缓解了这种冲突， 让模型既能做 VQA （视觉问答） ， 又能做图像/视频生成和编辑.

期待一波实际应用落地， 这个模型对于端侧和多模态 Agent 来讲意义是重大的， 有很多之前需要多个模型协作的场景都能用单个模型做了.

#lance #全模态模型
