NVIDIA 提出 DreamGen:让机器人在视频生成模型中「做梦」合成训练数据,实现强零样本泛化,将开源
DreamGen让机器人在视频生成模型中"做梦"合成训练数据。通过微调Sora等模型生成海量神经轨迹(逼真视频+动作标签),机器人从单一拾取放置任务泛化到倾倒、折叠等22种新行为。在NVIDIA总部咖啡厅测试中,人形机器人对新动词零样本成功率从0%提升至43%,新环境达28%。相比传统图形引擎,无需手工建模即可处理流体、可变形物体等复杂场景,整个pipeline将于近期完全开源。
如果机器人能在视频生成模型内部做梦会怎样?我们推出 DreamGen,这是一种全新引擎,它不依赖成群的人类操作员,而是借助以像素为单位的数字梦境来规模化机器人学习。DreamGen 生成海量的神经轨迹——即与电机动作标签配对的逼真机器人视频——并解锁了对新名词、新动词和新环境强大的泛化能力。无论你是人形机器人(GR1)、工业机械臂(Franka),还是一个可爱的小机器人(HuggingFace SO-100),DreamGen 都能让你做梦。
像 Sora 和 Veo 这样的视频生成模型本质上是神经物理引擎。通过压缩数十亿条互联网视频,它们学习到了一个包含无数可能的未来的多重宇宙——即从任意初始图像帧出发,世界可能如何展开的叠加态。DreamGen 通过一个简单的四步方案利用了这种能力:
- 在目标机器人上微调一个 SOTA 视频模型; 2. 用多样化的语言提示词提示模型,模拟平行世界:你的机器人在新场景中会如何行动。过滤掉那些不遵循指令的坏梦(哈!); 3. 利用逆动力学或潜在动作模型恢复伪动作; 4. 在經過大规模增强的神经轨迹数据集上训练机器人基础模型。
就这么简单。只是更多的数据,以及纯粹的旧式监督学习。很简单,对吧?
令人惊叹的是它的效果能走多远。仅从一个单任务的“拾取-放置”数据集出发,我们的人形机器人学会了 22 种新行为,例如倒水、折叠、舀取、熨烫和锤击,尽管它从未见过这些动词。更棒的是,我们可以把机器人从实验室带出来,放到 NVIDIA 总部咖啡馆里,让 DreamGen 施展它的魔法。我们展示了真正的从零到一的泛化:新动词的成功率从 0% 提升到超过 43%,在未见过的环境中从 0% 提升到 28%。
与传统的图形引擎相比,DreamGen 并不在乎场景是否涉及可变形物体、流体、半透明材质、高接触交互或疯狂的光照。手工构建这些场景可不容易。对于 DreamGen,每个世界都只是通过扩散神经网络的一次前向传播。无论梦境多复杂,展开它所需的计算时间都是恒定的。
立即阅读我们的博客和论文!我们计划在未来几周内完全开源整个管道。链接在帖子中。