karminski-牙医@karminski3

2026-05-19 07:00·45天前

AI 摘要

字节跳动开源了全模态模型Lance，其激活参数量仅为3B，却能同时处理文本、图片和视频的输入与输出，完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本，其创新在于采用共享交错序列统一语义空间，并引入专用专家模块协调理解与生成的互斥关系，使得小参数模型性能接近更大规模模型。训练仅需128张A100，对端侧部署和多模态Agent应用具有重要价值。

究极"拼好模"出现了！字节跳动 Lance！

字节跳动刚发布了一个开源模型 Lance，激活参数量只有 3B. 但是这个模型可以接受文本，图片，视频输入，然后同时可以输出文本，图片，视频！

所以这一个模型就能完成像图片理解，视频理解，文生图，图生图，图片编辑，文生视频，图生视频，视频编辑等任务.

而训练团队在技术报告中透露，训练成本仅仅是 128 涨 A100 显卡（按照大厂算力来说纯纯是把冗余算力拿来用了）.

那为啥说是"拼好模"呢？原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT （用来看图和视频），而视觉输出模块是 Wan2.2_VAE （用来画画）. 而模型本体是两个：

Lance_3B （用来做图片的理解、生成或编辑任务） Lance_3B_Video （用来做视频相关的任务，比如文生视频、图生视频）

所以，这完全是一个研究性项目了，而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型（LLM）和扩散模型（Diffusion）硬拼接在一起（即所谓的 Pipeline 方案） .

而是在一个共享的交错序列（Interleaved sequence）中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间，让模型的理解能力和性能更好. （从评测来看3B就接近了许多10B甚至20B模型的水平）

另外还引入了多任务协同. 简单来讲，理解任务（图片转向量）和生成任务（向量转图片）在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块，成功缓解了这种冲突，让模型既能做 VQA （视觉问答），又能做图像/视频生成和编辑.

期待一波实际应用落地，这个模型对于端侧和多模态 Agent 来讲意义是重大的，有很多之前需要多个模型协作的场景都能用单个模型做了.

#lance #全模态模型