Embodied-R1.5：通过具身基础模型演化物理智能

2026-06-09 08:00·24天前

精选理由

仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics，还把模型权重、训练代码全开源了，做具身智能的团队不跟进就是犯罪。

AI 摘要

Embodied-R1.5是一个统一具身基础模型，将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线，团队搭建超过150亿模型token的数据系统，并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA，超越Gemini-Robotics-ER-1.5与GPT-5.4，并可微调为VLA，在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

AI 翻译 · 中文

我们提出Embodied-R1.5，这是一种统一的具身基础模型（EFM），在单一架构中集成了全面的具身推理能力，涵盖具身认知、任务规划、纠错与指向，旨在迈向通用物理智能。

利用三条自动化数据构建流水线，我们大幅扩展了关键能力的数据覆盖范围，构建了一个超过150亿模型token的大规模数据系统，并设计了一种多任务平衡的强化学习方案，以缓解异质任务冲突。

我们进一步提出了一种规划器-接地器-纠错器（PGC）闭环框架，使单一模型能够在长时域任务中自主执行并自我纠错。

Embodied-R1.5仅凭80亿参数，就在24个具身VLM基准测试中的16个上达到了SOTA，超越了Gemini-Robotics-ER-1.5和GPT-5.4等领先模型。

得益于内化的具身能力，Embodied-R1.5仅需少量数据即可微调成VLA，在4个流行的操作基准测试套件中优于π_{0.5}等领先VLA模型。

我们还进行了大量零样本真实机器人实验，验证了其在指令遵循、可供性接地、铰接物体操作以及长时域复杂任务上的表现，展示了向物理世界的强大泛化能力。

我们开源了模型权重、数据集、训练代码以及EmbodiedEvalKit（一个专为具身任务定制的评估框架），以推动未来EFM领域的研究。

HuggingFace Daily Papers（社区热门论文）

精选78导出 Markdown