WEAVER:一种更优、更快、更长的机器人操作世界模型
阅读原文· arxiv.org世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标,真机实验把成功率拉高38%,代码模型全开源,搞具身智能的值得认真读。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
世界模型(WM,即可学习模拟器)对机器人领域的潜在影响是深远的——它可用于策略评估、策略改进以及测试时规划——且所有这些都只需有限的实际交互。为了释放这些下游能力,WM 需要同时满足三个需求:(i) 保真度(即生成的模拟轨迹与现实相关),(ii) 一致性(即生成的模拟轨迹在长时间跨度内保持连贯),以及 (iii) 效率(即快速生成模拟轨迹)。我们提出 WEAVER(World Estimation Across Views for Embodied Reasoning,具身推理的跨视角世界估计):一种同时实现全部三个需求的 WM 架构,在机器人操作任务上达到了最先进水平。WEAVER 是一个多视角 WM,通过流匹配损失来预测未来隐状态和奖励值。我们提炼了模型架构、记忆和预测目标中的关键设计决策,这些决策对于解锁以往 WM 方法难以处理的长期动态操作任务至关重要。我们将 WEAVER 应用于机器人硬件,展示了其在策略评估(与现实成功率的相关系数 ρ=0.870)、策略改进(在 π_{0.5} 机器人基础模型基础上现实成功率提升 38%)以及测试时规划(现实成功率提升 14%,且相比之前 WM 有 5-10 倍加速)方面的有效性。在分布外场景下评估时,WEAVER 也展现出比之前 WM 更优的性能。代码、模型和视频见:https://arnavkj1995.github.io/WEAVER/ 。