世界模型成为物理AI新底座,机器人零样本泛化能力逼近GPT-2时刻
团队发布DreamZero,首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式,通过像素级世界模型实现零样本开放世界提示能力,可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示,并以像素作为跨具身的通用桥梁,实现robot2robot和human2robot知识迁移。仅需55条轨迹(约30分钟遥操作)即可适应全新硬件,验证世界模型作为Physical AI下一代基础的可行性。
新里程碑:我们在世界模型骨干网络上训练了一个机器人基础模型,并实现了对新动词、新名词和新环境的零样本、开放世界提示能力。如果世界模型能够以像素形式“梦到”正确的未来,那么机器人就能在电机层面良好执行。我们将其命名为“DreamZero”,这是我们的首个世界动作模型(WAM)。
我们的团队在实验室里玩得很开心,随意在开放文本提示框中输入任何内容,看着机器人执行它从未训练过的任务。这是一种我们未曾预料到的涌现能力。当然,它还没有达到 GPT-3 的可靠性,但我们正在迈入 GPT-2 时代。
发现:
- 模型与数据策略共同演进。与 VLA 相比,WAM 从多样化数据中学习效果最佳,打破了传统观念中每个任务需要大量重复演示才是关键的做法。多样性远胜于重复。
- 跨本体极其困难。像素就是答案。不同机器人形态历来难以良好地共享知识。但如果我们以视频为先,像素就成为连接不同硬件的通用桥梁——甚至包括人类第一人称视角的视频。DreamZero 展示了显著的机器人到机器人以及人类到机器人的迁移能力。仅凭 55 条轨迹数据(约 30 分钟遥操作)用于一种*新的*、未见过的硬件,它就能快速适应,并保留零样本提示能力。
昨天我发布了关于“第二预训练范式”的内容:世界模型是物理 AI 的下一代基础,而非语言骨干网络。今天,我们证明了这个方向是可行的。而 2026 年才刚刚开始。
论文:世界动作模型即零样本策略。
立即阅读:(贴文链接)