DeepSeek:GitHub 新仓库
精选71
DeepSeek团队提出"视觉基元思维"新范式,解决多模态模型空间推理指代鸿沟
精选理由
DeepSeek 把视觉坐标直接编进推理链,用「指哪想哪」的方式解决多模态模型的空间推理幻觉,思路很反直觉但效果对齐了 GPT-5.4 级别,做多模态推理的值得深挖。
AI 摘要
DeepSeek团队发布了一种新型多模态大语言模型范式,通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹,有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构,能将每4个视觉令牌的KV缓存压缩为单个条目,显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中,其性能媲美GPT-5.4等前沿模型,而模型规模更紧凑且图像令牌预算更低。技术报告已公开,内部基准测试和部分数据将于近期发布,模型权重未来将整合至基础模型后开放。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com