H*项目突破传统MLLMs处理单一2D图像的局限,引入全景图像作为环境载体,使模型具备在360度真实空间中主动观察与推理的能力。相比V*等项目的局部视觉工具,H*通过"具身化"范式赋予模型类似人类颈部的视角自由度,显著扩展了行动空间,支持在地铁站、商场等复杂场景中进行视觉搜索与空间推理,实现了从被动接受到主动探索的范式转变。
🤔Visual-spatial reasoning requires a shift from a disembodied, passive paradigm to an embodied, active one: 🤖Grounding...