# DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

- 来源：向阳乔木 (@vista8)
- 发布时间：2026-04-30 21:59
- AIHOT 分数：50
- AIHOT 链接：https://aihot.virxact.com/items/cmolkdxsx00ffslqtbof3w6fw
- 原文链接：https://x.com/vista8/status/2049851069878993367

## AI 摘要

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

## 正文

http://x.com/i/article/2049847033758916609

# 又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点

昨天体验了网页端的DeepSeek的识图模式，速度超级快，质量也还行。

今天看到DeepSeek公布了论文，果然秉承了优良传统，节假日前搞事情，Respect！

Github地址：https://github.com/deepseek-ai/DeepSeek-VL

> 论文查看 https://arxiv.org/pdf/2403.05525

AI总结，人工阅读Review配图如下。

## 一句话总结

DeepSeek-VL是DeepSeek团队开源的视觉语言模型，有1.3B和7B两个版本。

核心目标只有一个：在真实场景里既能看图又能说话，同时不丢失语言能力。它从数据、架构、训练策略三个维度入手，在同等参数规模下做到了开源模型里的顶尖水平。

## 这篇论文到底在解决什么问题？

2024年初，开源多模态模型和GPT-4V之间有一道明显的鸿沟。

很多开源模型在学术benchmark（基准测试，就是标准化的评分考试）上跑分还行，但一到真实场景就拉胯。

让它看一张网页截图、读一份PDF、识别街拍里的小字，效果就大打折扣。

DeepSeek团队总结了四个核心原因：

第一，预训练不够充分。

很多模型把大量算力花在了指令微调阶段，但真正的通用能力来自大规模预训练。

这就像一个人只刷题不读书，考试可能还行，解决实际问题就不够用了。

第二，训练数据和真实使用场景脱节。

把一堆学术数据集拼在一起做微调，benchmark分数好看，但用户实际用起来体验很差。

第三，图像分辨率太低。

大部分模型只能处理336×336或448×448像素的图片。

现实世界里的OCR（光学字符识别，就是让AI读懂图片里的文字）、小物体识别，这个分辨率根本不够用。

第四，多模态训练会"吃掉"语言能力。

很多模型在加入视觉训练后，语言能力明显下降。

这是一个很棘手的问题，也是这篇论文花了最多篇幅去解决的事情。

## 数据构建：从真实场景出发

DeepSeek-VL的数据分两大块：预训练数据和监督微调数据。

## 预训练数据

覆盖面非常广，按类别拆开来看：

图文交错数据（占13.1%）

就是图片和文字混合出现的内容，比如维基百科文章里图文穿插的格式。

用了MMC4、Wikipedia中英文、Wikihow，以及内部的PDF和电子书。

这类数据能让模型学会在上下文里理解多张图片，也就是所谓的"多模态上下文学习"能力。

图像描述数据（占11.1%）

高质量的图文配对数据集，包括Capsfusion、TaiSu（一个1.66亿规模的中文视觉语言数据集）和Detailed Caption。

表格和图表数据（占2.1%）

来自十多个公开数据集，涵盖各种图表、地理题、科学题、UI截图等，让模型学会理解各种结构化视觉信息。

网页代码数据（占0.4%）

这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook，提取了其中的图表和对应的生成代码，最终筛选出110万个高质量的图文代码对。

目标是让模型能从图形界面或可视化图表反推出代码。

文档OCR数据（占2.1%）

当时市面上没有大规模的中英文文档OCR数据集，团队自己造了。

两个来源：一是从140万篇arXiv论文里提取图文对；二是从86万本英文电子书和18万本中文电子书里，用HTML渲染工具生成了配对的图片和文本。

场景文字OCR数据（占1.2%）

识别融入环境的文字，比如街道招牌、商品包装。

用了ArT、MLT-17、LSVT、UberText等十个公开数据集。

纯文本数据（占70%）

这个比例是整个训练策略的核心，后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。

## 监督微调数据

微调数据分四类：

内部数据（占10.5%）

这是最有价值的部分。

团队先从网上收集了GPT-4V和Gemini的真实用户测试案例，然后把这些案例整理成一套完整的分类体系，再根据这套分类体系去选图、写提示词，构建出贴近真实使用场景的微调数据。

通用多模态数据（占35.5%）

包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。

表格图表和网页代码数据（各占4.1%和2.0%）

从预训练数据集里抽取部分用于微调。

纯文本对话数据（占47.9%）

沿用DeepSeek-LLM的文本对话数据，保住语言能力。

## 那套分类体系长什么样？

这套分类体系是整个数据构建思路的精华，值得单独说说。

团队把多模态模型的真实使用场景分成六大类：

识别类： 全局描述（场景、风格、食物）、局部描述（位置、人物、Logo、计数）、OCR转录（印刷体、手写体）。

转换类： 图片转代码（UI转代码、图表转代码、公式转代码）、图片转文本（生成提示词、文字摘要、图片创作）。

分析类： 数据图表分析、专业图表分析（电路图、流程图、地图、乐谱、平面图）、专业图像分析（传感器图像、医学图像）、百科知识分析（艺术文化、自然环境、衣食住行）。

常识推理类： 关系推理（人际、空间、大小）、功能推理（硬件、软件）、环境推理（具身智能）、异常推理（缺陷检测、事故判断）。

逻辑推理类： 数学推理（代数、平面几何、立体几何）、其他逻辑推理（物理、化学、生物、代码、智力题）。

评估类： 真实性评估、相似度评估、美学评估。

还有多图理解和安全两个额外类别。

这套分类体系同时用于数据构建和效果评估，保证了训练和测试的一致性。

这是"从真实用户需求倒推数据构建"的典型做法，比单纯堆学术数据集高明得多。

## 模型架构：三个模块协同工作

整个模型由三个模块组成：混合视觉编码器、视觉语言适配器、语言模型。

## 混合视觉编码器

这是技术上最有意思的部分之一。

传统的视觉语言模型通常只用一个视觉编码器，比如CLIP系列的SigLIP（一种用图文对比训练出来的视觉编码器）。

但SigLIP有两个问题：

一是存在"CLIP盲点对"现象，视觉上明显不同的两张图片，经过SigLIP编码后可能得到非常相似的表示，导致模型分不清楚。

二是分辨率有限，最高只到512×512，处理不了需要精细识别的任务。

DeepSeek-VL用了双编码器混合方案：

SigLIP-L 处理低分辨率（384×384）输入，负责提取高层语义特征，擅长理解图片"讲了什么"。

SAM-B 处理高分辨率（1024×1024）输入，负责提取低层细节特征。

SAM是 Meta 开发的"Segment Anything Model"（万物分割模型），其中的ViTDet图像编码器（一种专门为目标检测优化的视觉Transformer）特别擅长捕捉精细的局部信息，比如小字、边缘、纹理。

两个编码器输出的特征经过适配器处理后，最终融合成576个视觉token（可以理解为576个"视觉词"）。

这个数字很关键，它在视觉信息量和计算成本之间找到了平衡点，既能支持多轮对话，又不会让推理成本爆炸。

为了验证这个选择，团队做了对比实验，测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。

结果显示SigLIP+SAM的组合训练损失下降最快、最低，证明引入视觉自监督编码器确实有效。

## 视觉语言适配器

这是连接视觉编码器和语言模型的桥梁，用的是两层混合MLP（多层感知机，一种基础的神经网络结构）。

具体做法：先用两个独立的单层MLP分别处理高分辨率和低分辨率特征，然后把两个特征拼接在一起，再通过一层MLP映射到语言模型的输入空间。

为什么要用两个独立的MLP而不是共享一个？

团队做了消融实验，对比了几种适配器设计：

- 序列拼接（把视觉特征在序列维度上堆叠）：效果一般，而且计算量更大

- 嵌入维度拼接（在特征维度上拼接）：效果更好

- 共享MLP：特征融合充分，但对不同编码器的特征分布适应性差

- 独立MLP：能精准适应各自编码器的特征分布，但融合不够

- 混合MLP（先独立处理再拼接）：综合了两者优点，效果最好

## 语言模型

基于DeepSeek-LLM构建，架构上和LLaMA高度相似：用了RMSNorm（一种更高效的归一化方法）、SwiGLU激活函数（一种改进的门控线性单元）、旋转位置编码（RoPE，一种让模型理解token位置关系的方法）。

两个版本的基础：

- DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B（用约5000亿文本token训练）

- DeepSeek-VL-7B 基于 DeepSeek-LLM-7B（用约2万亿文本token训练）

值得注意的是，团队选的是DeepSeek预训练模型的中间检查点，而不是最终版本，然后继续做多模态预训练。

## 训练策略：三阶段 + 模态平衡

训练分三个阶段，每个阶段解决不同的问题。

## 第一阶段：热身视觉语言适配器

冻住视觉编码器和语言模型，只训练适配器。

数据：125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。

这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接，让语言模型能"认识"视觉特征。

团队做了一个重要实验：把第一阶段的数据量从2K步扩展到80K步，然后直接做微调，看效果有没有提升。

结果是扩大数据量没有任何帮助，性能甚至略有下降。

原因很清楚：适配器（两层MLP）的参数量太少，容量有限，学到一定程度就饱和了。

再多的数据也塞不进去。这也说明了为什么必须有第二阶段。

## 第二阶段：联合视觉语言预训练

这是最关键的阶段，也是论文最核心的贡献之一。

解冻语言模型和适配器，视觉编码器保持冻结，用大规模图文混合数据继续预训练。

团队发现了一个严峻问题：如果只用多模态数据训练，语言能力会断崖式下降。

上图展示了这个现象。

在1B模型上，用100%多模态数据训练时，MMBench（多模态理解测试）分数缓慢上升，但HellaSwag（语言理解测试）和MMLU（多学科知识测试）分数急剧崩塌。

团队分析了两个原因：

一是多模态数据本身比纯文本数据简单得多，分布差异很大，直接用来训练会"稀释"语言知识。

二是视觉模态和语言模态之间存在竞争关系，学多了视觉就会忘记语言，这是一种"灾难性遗忘"。

解决方案是联合语言多模态训练：在训练时同时混入大量纯文本数据。

实验结果非常清晰：

- 混入语言数据后，语言能力下降的问题得到了大幅缓解

- 加入语言数据并不会明显损害多模态性能

- 两种模态的性能都和它们在训练数据中的比例强相关

最终选定的比例是语言70%、多模态30%。

这个比例能让模型在保住语言能力的同时，获得足够的多模态预训练效果。

除了混合比例，团队还提出了两个实用技巧：

模态分组训练

直接把语言数据和多模态数据混在同一个batch里，会有效率问题：纯文本处理很快，但要等多模态数据处理完才能更新参数，造成大量等待。

解决方法是把不同模态的数据分开组batch，每个训练步要么全是语言数据，要么全是多模态数据。

这一招让训练效率提升了20%，而且性能完全不受影响。

模态热身策略

训练初期把语言数据比例设为100%，然后逐渐降到目标比例（70%）。

这样可以避免训练初期语言能力的剧烈波动，让模型更平稳地适应多模态数据的加入。

实验证明，这个策略在训练后期也能带来更好的语言和多模态双端性能。

还有一个容易被忽略的工程细节。

团队在1.3B小模型上做实验迭代，再放大到7B。

但小模型有个问题：在标准benchmark上表现波动极大，很难准确反映改进效果。

原因是小模型虽然"知道"正确答案，但没有足够的指令跟随能力把答案"说出来"。

解决方案是双管齐下：

1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度（PPL，一种衡量模型对某段文本有多困惑的指标，越低越好）"

1. 同时在预训练阶段混入少量指令微调数据，让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号，大大加快了迭代速度。

## 第三阶段：监督微调

用前面构建的指令微调数据集，训练模型的对话和指令跟随能力，最终得到DeepSeek-VL-Chat。

这个阶段同时训练语言模型、适配器和SigLIP编码器。

SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失，系统提示和用户输入不参与训练。

三个阶段缺一不可：只有第一阶段+第三阶段，平均分57.4；加上第二阶段后提升到62.4。

第一阶段虽然提升有限，但也有意义，去掉它性能会略微下降。

## 训练基础设施

使用了DeepSeek自研的HAI-LLM分布式训练框架。

DeepSeek-VL-7B用了64个节点（每个节点8块英伟达A100 GPU），训练了5天。

DeepSeek-VL-1.3B用了16个节点，训练了7天。

## 效果评测：数字说话

## 多模态benchmark

## 7B模型在开源模型里表现最好：

- SeedBench（综合多模态理解）：70.4，接近GPT-4V的71.6

- MMBench（多模态综合测试）：73.2，超过所有同级开源模型

- OCRBench（OCR专项测试）：456分，远超同级模型（LLaVA-1.5 13B只有331分）

- POPE（幻觉测试，测模型会不会"看到"不存在的东西）：88.1，同级最高

- MathVista（数学视觉推理）：36.1，超过所有同级开源模型，但和GPT-4V（47.8）还有差距

- CMMMU（中文多学科多模态理解）：37.9，明显优于其他开源模型

1.3B小模型更令人印象深刻：用一半不到的参数（1.3B vs 2.7B），在MMBench上超过了MobileVLM V2 2.7B（64.6 vs 63.2）。

MathVista上甚至达到31.1，和部分7B模型相当。

## 语言benchmark

这是DeepSeek-VL最值得骄傲的地方之一。

- HellaSwag：68.4（DeepSeek-LLM-7B是68.5），几乎持平

- MMLU：52.4（DeepSeek-LLM-7B是49.4），多模态训练后反而提升了

- AGIEval：27.8（DeepSeek-LLM-7B是19.3），同样提升

- GSM8K（数学）：55.0（DeepSeek-LLM-7B是63.0），有所下降

数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在，7B的模型容量在这里成了瓶颈。

团队认为更大的模型可以缓解这个问题。

## 人工评测

团队构建了100道题，覆盖七个类别，和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。

结论：DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V，整体表现优于其他开源模型。

逻辑推理是所有开源模型的共同短板，和GPT-4V差距最大。

还做了GPT-4V裁判评测：把DeepSeek-VL和其他模型的回答都给GPT-4V看，让它判断哪个更好。

结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好，甚至在和GPT-4V自身对比时也获得了相当不错的评价。

真实场景能力展示

论文里展示了大量真实案例，值得逐一看看：

处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示

识别图片中的细小物体（骑车人在女士手提包的左侧），并给出有条理的解释

理解Python代码截图并逐步解释算法逻辑

看懂儿童编程Scratch流程图并转换成Python代码（对比的开源模型1直接说"我无法处理图片"）

1. 分析训练损失曲线图表，找出代码中的bug

识别泰国10泰铢硬币；根据图片创作七言绝句；识别米哈游游戏角色

把真实表格图片转换成Markdown格式

## 为什么这篇论文重要？

它揭示并量化了一个关键矛盾：多模态能力和语言能力之间存在竞争关系。

70%语言数据这个比例，加上模态热身策略和分组训练，提供了一套可复制的解决方案。

它证明了"从真实场景出发"构建数据的重要性。

用分类体系指导数据收集，比随意拼凑学术数据集有效得多。

混合视觉编码器的思路很实用。

用两个互补的编码器分别处理语义和细节，比单纯堆高分辨率更高效，576个token的压缩方案在信息量和计算成本之间找到了合理平衡。

小模型迭代方法论有很强的工程参考价值。

困惑度评估 + 少量指令数据混入，让1.3B模型也能给出稳定的实验信号，大幅降低了迭代成本。

当然，局限也很清楚。

7B的模型容量限制了数学推理等复杂任务的表现。

论文结尾提到了后续会引入MoE（Mixture of Experts，混合专家模型）技术，这也是后来DeepSeek-VL2的方向。