定位何处:基础模型能否通过主动探索达到目标视角
阅读原文· arxiv.org主动探索视角是具身智能的关键短板,这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码,做空间智能的可以直接拿来跑。
研究提出目标视角复现任务(TVR)与模拟基准TVRBench,评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%,瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架,视觉动作SFT将9B开源模型成功率提升至50.8%,多轮GRPO进一步达到51.4%,为训练主动感知与行动的模型提供了基准。代码与模型已开源。
人类可以通过主动的头部和身体运动,复现目标图像所指定的视角,然而基础模型中的空间智能在很大程度上被研究为对预收集观测数据的被动理解。我们引入了目标视角复现(Target Viewpoint Reproduction,TVR)—— 一项主动任务,其中智能体在三维环境中调整其视角,直至其观测与给定目标图像匹配——以及 TVRBench,这是一个涵盖场景尺度与目标视角视觉丰富度的室内仿真基准。TVR 远未得到解决:在评测划分上,最强的开源模型和闭源模型仅达到 7.8% 和 12.0% 的成功率。细粒度分析识别出两个一致的瓶颈:现成模型在处理多轮视觉历史记录时存在困难,并且当视角复现需要身体平移而非原地旋转时,性能急剧下降,这暴露了将空间差异映射到具身运动方面的不足。为研究缩小这一差距,我们构建了一个统一的 TVR 后训练框架,涵盖专家轨迹 SFT、推理监督的 CoT-SFT、离线单轮 GRPO,以及基于模拟器实时 rollouts 的在线多轮 GRPO。视觉-动作 SFT 提供了主要增益,使 90 亿参数的开源模型达到 50.8% 的成功率;多轮 GRPO 提供了针对性的多房间优化,整体达到 51.4%,而 CoT 监督和单轮 GRPO 则导致闭环性能下降。这些结果确立了 TVRBench 作为衡量和训练在三维环境中主动感知与行动的基础模型的测试平台。我们的代码、数据和模型可在 https://github.com/aim-uofa/TVRBench 获取。