DeepSeek 大范围开放"识图模式"，正式跨入图文交互时代

2026-05-09 08:55·55天前

AI 摘要

DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力，不仅能识别文物、解答空间推理题、理解网络梗图，还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架，通过融入点、边界框等视觉元素提升逻辑准确性，且处理效率高，单图token消耗远低于主流模型。目前该模式仍处内测，存在知识库更新滞后、处理反直觉图形不稳定等不足，且暂不支持图像生成或视频理解。

原文

IT之家 5 月 9 日消息，上个月底，DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR，而是终于具备了图片识别理解能力。

根据最新用户反馈，DeepSeek 已经大范围开放“识图模式”供用户体验，目前几乎所有测试账号都能看到该入口。但截至IT之家发稿，DeepSeek 中的“识图模式”仍标注为“图片理解功能内测中”。

如图所示，拥有灰度测试资格的用户会发现，输入框上方与“快速模式”和“专家模式”并列，出现了一个全新的“识图模式”按钮。

在具体的实测体验中，开启该模式后，用户可以直接上传图片让 DeepSeek“看”世界，其能力边界远超简单的文字提取。

在基础的图像识别领域，它成功变身为一名“博物学家”，例如有网友上传了在博物馆拍摄的不明文物，开启“深度思考”后，DeepSeek 不仅详细描述了纹理与材质，甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”；在面对烧脑的逻辑题时，它同样展现出硬核的推理能力，在一项需要在脑海中拼合立方体的高难度空间推理题中，虽然不开思考模式容易给出错误答案，但一旦开启深度思考并耗费了长达 4 分钟左右的时间，最终给出了正确的答案；此外，它还被验证了极强的“网感”，上传时下流行的表情包或梗图，它能精准识别合照中的人物（例如从一张合影中同时精确区分出特朗普和鲁路修），甚至能解读出小猫的无奈情绪，准确理解网民的转发笑点；在生产力方面，它还可以充当万能的“截图转码器”，直接将包含代码、复杂 UI 界面的技术报告或网页截图进行解析，提取出所有文字，甚至能一键反向生成可交互的 HTML 代码，连原网页的跳转按钮都能原封不动地予以复原。

伴随着识图模式的上线，DeepSeek 上月底还公开了其背后的多模态模型技术细节，公布了一种名为“Thinking with Visual Primitives（以视觉原语思考）”的核心框架。

据 DeepSeek 发布的技术报告解释，传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境，模型虽然能看见图片，但在推理过程中用“左边那个大的”等模糊的自然语言构建逻辑链时，很容易因描述不准导致注意力漂移。

DeepSeek 给出的解法是，将点、边界框等代表空间位置的视觉元素直接融入模型的推理链条，使其成为“思维的基本单元”。这种创新框架使得模型在推理时就像人类用“赛博手指”在脑海中精确指出目标物一样，边想边指，从而完美解决了复杂空间布局中的逻辑难题。

更令人惊叹的是，这种高效的框架在实际运算中对算力资源非常友好，在处理一张 800×800 分辨率的图片时，DeepSeek 仅消耗约 90 个 tokens，而 GPT 和 Claude 等其他主流模型在处理同等图片时则需要消耗约 870 到 1100 个 tokens，且 DeepSeek 在多项计数与空间推理的基准测试上达到了比肩甚至超越了前沿模型的水平。

另外需要提醒的是，刚学会“睁眼”的 DeepSeek 并没有大家想象中那么完美。综合大量用户实测反馈来看，目前的识图模式仍存在几处明显不足：

首先是知识库更新的滞后性，在某些测试中，虽然模型的推理过程和分析逻辑完全正确，但最终答案却张冠李戴 —— 例如在识别某款 2025 年底发布的最新型号手机时，因其知识库停留在 2025 年，虽然能通过副屏细节推断出旧型号，但仍给出了完全错误的具体型号；

其次，在面对数图中老虎数量、视错觉等高难度反直觉图形题目时，它的答案依然存在很大的不确定性，甚至有时在经过长时间“深度思考”后，反而出现了更严重的幻觉，导致最终逻辑崩溃。

还有一点需要明确的是，目前 DeepSeek 上线的识图模式本质上是纯视觉理解模块，它主要集中在图片识别与分析层面，尚未集成图像生成、视频理解或跨模态交互等更为广义的多模态功能。