NVIDIA提出用视频生成模型为机器人“造梦”合成训练数据,实现零样本技能泛化
NVIDIA发布DreamGen引擎(GR00T Dreams),将Sora/Veo等视频生成模型用作神经物理引擎,通过微调模型、模拟并行世界、恢复伪动作、训练基础模型四步流程,为机器人生成大规模合成训练数据。人形机器人仅凭单一拾放任务即可学会倾倒、折叠等22种新行为,在新动词和陌生环境中实现零样本泛化(成功率分别达43%和28%)。相比传统图形引擎,该方法以恒定计算成本处理可变形物体、流体等复杂交互,团队计划数周内完全开源。
机器人领域的世界建模极其困难,因为 (1) 对类人机器人及五指手的控制,远比游戏中上⬆️左⬅️下⬇️右➡️(Genie 3 那样)要复杂得多;(2) 物体交互的多样性远超完全自动驾驶(FSD),因为 FSD 需要*避免*发生接触。我们的 GR00T Dreams 工作是构建高保真类人机器人世界模拟器的首次尝试。它不仅用于评估,还用于大规模合成数据生成。是时候告别机器人领域的"化石燃料"(人工遥操作),拥抱清洁能源(核"扩散模型")了!
GR00T Dreams 之前有些低调,所以在今天这个欢乐的日子里让它重新焕发生机 ;)