# DreamGen：让机器人在视频生成模型中"做梦"合成训练数据

- 来源：Jim Fan (@DrJimFan)
- 发布时间：2025-05-20 21:29
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1ysuy0106slc325419zpu
- 原文链接：https://x.com/DrJimFan/status/1924819887139987855

## 精选理由

NVIDIA 提出 DreamGen：让机器人在视频生成模型中「做梦」合成训练数据，实现强零样本泛化，将开源

## AI 摘要

DreamGen让机器人在视频生成模型中"做梦"合成训练数据。通过微调Sora等模型生成海量神经轨迹（逼真视频+动作标签），机器人从单一拾取放置任务泛化到倾倒、折叠等22种新行为。在NVIDIA总部咖啡厅测试中，人形机器人对新动词零样本成功率从0%提升至43%，新环境达28%。相比传统图形引擎，无需手工建模即可处理流体、可变形物体等复杂场景，整个pipeline将于近期完全开源。

## 正文

如果机器人能在视频生成模型内部做梦会怎样？我们推出 DreamGen，这是一种全新引擎，它不依赖成群的人类操作员，而是借助以像素为单位的数字梦境来规模化机器人学习。DreamGen 生成海量的神经轨迹——即与电机动作标签配对的逼真机器人视频——并解锁了对新名词、新动词和新环境强大的泛化能力。无论你是人形机器人（GR1）、工业机械臂（Franka），还是一个可爱的小机器人（HuggingFace SO-100），DreamGen 都能让你做梦。

像 Sora 和 Veo 这样的视频生成模型本质上是神经物理引擎。通过压缩数十亿条互联网视频，它们学习到了一个包含无数可能的未来的多重宇宙——即从任意初始图像帧出发，世界可能如何展开的叠加态。DreamGen 通过一个简单的四步方案利用了这种能力：

1. 在目标机器人上微调一个 SOTA 视频模型； 2. 用多样化的语言提示词提示模型，模拟平行世界：你的机器人在新场景中会如何行动。过滤掉那些不遵循指令的坏梦（哈！）； 3. 利用逆动力学或潜在动作模型恢复伪动作； 4. 在經過大规模增强的神经轨迹数据集上训练机器人基础模型。

就这么简单。只是更多的数据，以及纯粹的旧式监督学习。很简单，对吧？

令人惊叹的是它的效果能走多远。仅从一个单任务的“拾取-放置”数据集出发，我们的人形机器人学会了 22 种新行为，例如倒水、折叠、舀取、熨烫和锤击，尽管它从未见过这些动词。更棒的是，我们可以把机器人从实验室带出来，放到 NVIDIA 总部咖啡馆里，让 DreamGen 施展它的魔法。我们展示了真正的从零到一的泛化：新动词的成功率从 0% 提升到超过 43%，在未见过的环境中从 0% 提升到 28%。

与传统的图形引擎相比，DreamGen 并不在乎场景是否涉及可变形物体、流体、半透明材质、高接触交互或疯狂的光照。手工构建这些场景可不容易。对于 DreamGen，每个世界都只是通过扩散神经网络的一次前向传播。无论梦境多复杂，展开它所需的计算时间都是恒定的。

立即阅读我们的博客和论文！我们计划在未来几周内完全开源整个管道。链接在帖子中。