Embodied-R1.5:通过具身基础模型演化物理智能
阅读原文· arxiv.org仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics,还把模型权重、训练代码全开源了,做具身智能的团队不跟进就是犯罪。
Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。
我们提出Embodied-R1.5,这是一种统一的具身基础模型(EFM),在单一架构中集成了全面的具身推理能力,涵盖具身认知、任务规划、纠错与指向,旨在迈向通用物理智能。
利用三条自动化数据构建流水线,我们大幅扩展了关键能力的数据覆盖范围,构建了一个超过150亿模型token的大规模数据系统,并设计了一种多任务平衡的强化学习方案,以缓解异质任务冲突。
我们进一步提出了一种规划器-接地器-纠错器(PGC)闭环框架,使单一模型能够在长时域任务中自主执行并自我纠错。
Embodied-R1.5仅凭80亿参数,就在24个具身VLM基准测试中的16个上达到了SOTA,超越了Gemini-Robotics-ER-1.5和GPT-5.4等领先模型。
得益于内化的具身能力,Embodied-R1.5仅需少量数据即可微调成VLA,在4个流行的操作基准测试套件中优于π_{0.5}等领先VLA模型。
我们还进行了大量零样本真实机器人实验,验证了其在指令遵循、可供性接地、铰接物体操作以及长时域复杂任务上的表现,展示了向物理世界的强大泛化能力。
我们开源了模型权重、数据集、训练代码以及EmbodiedEvalKit(一个专为具身任务定制的评估框架),以推动未来EFM领域的研究。