DeepSeek 大范围开放"识图模式",正式跨入图文交互时代
阅读原文· ithome.comDeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力,不仅能识别文物、解答空间推理题、理解网络梗图,还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架,通过融入点、边界框等视觉元素提升逻辑准确性,且处理效率高,单图token消耗远低于主流模型。目前该模式仍处内测,存在知识库更新滞后、处理反直觉图形不稳定等不足,且暂不支持图像生成或视频理解。
IT之家 5 月 9 日消息,上个月底,DeepSeek 开始灰度测试“识图模式”。该模式并非简单的文字 OCR,而是终于具备了图片识别理解能力。
根据最新用户反馈,DeepSeek 已经大范围开放“识图模式”供用户体验,目前几乎所有测试账号都能看到该入口。但截至IT之家发稿,DeepSeek 中的“识图模式”仍标注为“图片理解功能内测中”。
如图所示,拥有灰度测试资格的用户会发现,输入框上方与“快速模式”和“专家模式”并列,出现了一个全新的“识图模式”按钮。
在具体的实测体验中,开启该模式后,用户可以直接上传图片让 DeepSeek“看”世界,其能力边界远超简单的文字提取。
在基础的图像识别领域,它成功变身为一名“博物学家”,例如有网友上传了在博物馆拍摄的不明文物,开启“深度思考”后,DeepSeek 不仅详细描述了纹理与材质,甚至准确推断出某件玉器属于 18 世纪清代乾隆时期的“痕都斯坦风格”;在面对烧脑的逻辑题时,它同样展现出硬核的推理能力,在一项需要在脑海中拼合立方体的高难度空间推理题中,虽然不开思考模式容易给出错误答案,但一旦开启深度思考并耗费了长达 4 分钟左右的时间,最终给出了正确的答案;此外,它还被验证了极强的“网感”,上传时下流行的表情包或梗图,它能精准识别合照中的人物(例如从一张合影中同时精确区分出特朗普和鲁路修),甚至能解读出小猫的无奈情绪,准确理解网民的转发笑点;在生产力方面,它还可以充当万能的“截图转码器”,直接将包含代码、复杂 UI 界面的技术报告或网页截图进行解析,提取出所有文字,甚至能一键反向生成可交互的 HTML 代码,连原网页的跳转按钮都能原封不动地予以复原。
伴随着识图模式的上线,DeepSeek 上月底还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架。