τ_0-WM:用于机器人操控的统一视频-动作世界模型
阅读原文· arxiv.org机器人操作领域的大一统尝试,把视频预测和动作生成放在一个扩散模型里,还用27万小时数据训练,做具身智能的可以看看这个架构。
τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。
机器人操作需要模型能够生成可执行的动作,同时在实际执行前预估并评估其未来后果。我们提出 τ₀-世界模型(τ₀-WM),这是一个统一的视频-动作世界模型,将策略学习、视频预测和动作评估整合在同一个未来预测框架内。τ₀-WM 基于共享的视频扩散骨干架构构建,提供两个互补的接口。首先,一个视频动作模型可以从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜变量和连续动作块。其次,一个动作条件视频模拟器将候选动作块展开为多视角未来画面,并预测密集的任务进度分数。该模型使用约 27,300 小时的实机遥操作、UMI 风格交互、第一人称人类视频以及展开或失败轨迹数据,并采用模态特定的监督掩码进行训练。在推理时,τ₀-WM 利用测试时计算来采样动作候选,通过重去噪一致性进行排序,并对低质量候选调用基于模拟器的修正。在具有挑战性的长程和细粒度机器人操作任务中,τ₀-WM 展现出优于其他相关基线的性能。