向阳乔木@vista8

2026-04-30 21:59·63天前

AI 摘要

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

http://x.com/i/article/2049847033758916609

又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点

昨天体验了网页端的DeepSeek的识图模式，速度超级快，质量也还行。

今天看到DeepSeek公布了论文，果然秉承了优良传统，节假日前搞事情，Respect！

Github地址：https://github.com/deepseek-ai/DeepSeek-VL

论文查看 https://arxiv.org/pdf/2403.05525

AI总结，人工阅读Review配图如下。

一句话总结

DeepSeek-VL是DeepSeek团队开源的视觉语言模型，有1.3B和7B两个版本。

核心目标只有一个：在真实场景里既能看图又能说话，同时不丢失语言能力。它从数据、架构、训练策略三个维度入手，在同等参数规模下做到了开源模型里的顶尖水平。

这篇论文到底在解决什么问题？

2024年初，开源多模态模型和GPT-4V之间有一道明显的鸿沟。

很多开源模型在学术benchmark（基准测试，就是标准化的评分考试）上跑分还行，但一到真实场景就拉胯。

让它看一张网页截图、读一份PDF、识别街拍里的小字，效果就大打折扣。

DeepSeek团队总结了四个核心原因：

第一，预训练不够充分。

很多模型把大量算力花在了指令微调阶段，但真正的通用能力来自大规模预训练。

这就像一个人只刷题不读书，考试可能还行，解决实际问题就不够用了。

第二，训练数据和真实使用场景脱节。

把一堆学术数据集拼在一起做微调，benchmark分数好看，但用户实际用起来体验很差。

第三，图像分辨率太低。

大部分模型只能处理336×336或448×448像素的图片。

现实世界里的OCR（光学字符识别，就是让AI读懂图片里的文字）、小物体识别，这个分辨率根本不够用。

第四，多模态训练会"吃掉"语言能力。

很多模型在加入视觉训练后，语言能力明显下降。

这是一个很棘手的问题，也是这篇论文花了最多篇幅去解决的事情。

数据构建：从真实场景出发

DeepSeek-VL的数据分两大块：预训练数据和监督微调数据。

预训练数据

覆盖面非常广，按类别拆开来看：

图文交错数据（占13.1%）

就是图片和文字混合出现的内容，比如维基百科文章里图文穿插的格式。

用了MMC4、Wikipedia中英文、Wikihow，以及内部的PDF和电子书。

这类数据能让模型学会在上下文里理解多张图片，也就是所谓的"多模态上下文学习"能力。

图像描述数据（占11.1%）

高质量的图文配对数据集，包括Capsfusion、TaiSu（一个1.66亿规模的中文视觉语言数据集）和Detailed Caption。

表格和图表数据（占2.1%）

来自十多个公开数据集，涵盖各种图表、地理题、科学题、UI截图等，让模型学会理解各种结构化视觉信息。

网页代码数据（占0.4%）

这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook，提取了其中的图表和对应的生成代码，最终筛选出110万个高质量的图文代码对。

目标是让模型能从图形界面或可视化图表反推出代码。

文档OCR数据（占2.1%）

当时市面上没有大规模的中英文文档OCR数据集，团队自己造了。

两个来源：一是从140万篇arXiv论文里提取图文对；二是从86万本英文电子书和18万本中文电子书里，用HTML渲染工具生成了配对的图片和文本。

场景文字OCR数据（占1.2%）

识别融入环境的文字，比如街道招牌、商品包装。

用了ArT、MLT-17、LSVT、UberText等十个公开数据集。

纯文本数据（占70%）

这个比例是整个训练策略的核心，后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。

DeepSeek 多模态开源生态现象/趋势

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

50导出 Markdown

2026-04-30 21:59·63天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2049847033758916609

又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点

昨天体验了网页端的DeepSeek的识图模式，速度超级快，质量也还行。

今天看到DeepSeek公布了论文，果然秉承了优良传统，节假日前搞事情，Respect！

Github地址：https://github.com/deepseek-ai/DeepSeek-VL

论文查看 https://arxiv.org/pdf/2403.05525

AI总结，人工阅读Review配图如下。

一句话总结

DeepSeek-VL是DeepSeek团队开源的视觉语言模型，有1.3B和7B两个版本。

这篇论文到底在解决什么问题？

2024年初，开源多模态模型和GPT-4V之间有一道明显的鸿沟。

很多开源模型在学术benchmark（基准测试，就是标准化的评分考试）上跑分还行，但一到真实场景就拉胯。

又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点

一句话总结

这篇论文到底在解决什么问题？

数据构建：从真实场景出发

预训练数据

又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点

一句话总结

这篇论文到底在解决什么问题？

监督微调数据

那套分类体系长什么样？

模型架构：三个模块协同工作

混合视觉编码器

视觉语言适配器

语言模型

训练策略：三阶段 + 模态平衡

第一阶段：热身视觉语言适配器

第二阶段：联合视觉语言预训练

第三阶段：监督微调

训练基础设施

效果评测：数字说话

多模态benchmark

7B模型在开源模型里表现最好：

语言benchmark

人工评测

为什么这篇论文重要？

数据构建：从真实场景出发

预训练数据

监督微调数据

那套分类体系长什么样？

模型架构：三个模块协同工作

混合视觉编码器

视觉语言适配器

语言模型

训练策略：三阶段 + 模态平衡

第一阶段：热身视觉语言适配器

第二阶段：联合视觉语言预训练

第三阶段：监督微调

训练基础设施

效果评测：数字说话

多模态benchmark

7B模型在开源模型里表现最好：

语言benchmark

人工评测

为什么这篇论文重要？