DeepSeek团队提出"视觉基元思维"新范式，解决多模态模型空间推理指代鸿沟

2026-04-30 17:55·52天前·deepseek-ai

精选理由

DeepSeek 把视觉坐标直接编进推理链，用「指哪想哪」的方式解决多模态模型的空间推理幻觉，思路很反直觉但效果对齐了 GPT-5.4 级别，做多模态推理的值得深挖。

AI 摘要

DeepSeek团队发布了一种新型多模态大语言模型范式，通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹，有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构，能将每4个视觉令牌的KV缓存压缩为单个条目，显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中，其性能媲美GPT-5.4等前沿模型，而模型规模更紧凑且图像令牌预算更低。技术报告已公开，内部基准测试和部分数据将于近期发布，模型权重未来将整合至基础模型后开放。

该来源未收录可展示正文，站内仅提供摘要。

DeepSeek多模态推理论文/研究

DeepSeek：GitHub 新仓库

精选71