Jim Fan@DrJimFan

精选

2026-02-05 02:15·148天前

精选理由

世界模型成为物理AI新底座，机器人零样本泛化能力逼近GPT-2时刻

AI 摘要

团队发布DreamZero，首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式，通过像素级世界模型实现零样本开放世界提示能力，可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示，并以像素作为跨具身的通用桥梁，实现robot2robot和human2robot知识迁移。仅需55条轨迹（约30分钟遥操作）即可适应全新硬件，验证世界模型作为Physical AI下一代基础的可行性。

AI 翻译 · 中文

新里程碑：我们在世界模型骨干网络上训练了一个机器人基础模型，并实现了对新动词、新名词和新环境的零样本、开放世界提示能力。如果世界模型能够以像素形式“梦到”正确的未来，那么机器人就能在电机层面良好执行。我们将其命名为“DreamZero”，这是我们的首个世界动作模型（WAM）。

我们的团队在实验室里玩得很开心，随意在开放文本提示框中输入任何内容，看着机器人执行它从未训练过的任务。这是一种我们未曾预料到的涌现能力。当然，它还没有达到 GPT-3 的可靠性，但我们正在迈入 GPT-2 时代。

发现：

模型与数据策略共同演进。与 VLA 相比，WAM 从多样化数据中学习效果最佳，打破了传统观念中每个任务需要大量重复演示才是关键的做法。多样性远胜于重复。

跨本体极其困难。像素就是答案。不同机器人形态历来难以良好地共享知识。但如果我们以视频为先，像素就成为连接不同硬件的通用桥梁——甚至包括人类第一人称视角的视频。DreamZero 展示了显著的机器人到机器人以及人类到机器人的迁移能力。仅凭 55 条轨迹数据（约 30 分钟遥操作）用于一种*新的*、未见过的硬件，它就能快速适应，并保留零样本提示能力。

昨天我发布了关于“第二预训练范式”的内容：世界模型是物理 AI 的下一代基础，而非语言骨干网络。今天，我们证明了这个方向是可行的。而 2026 年才刚刚开始。

论文：世界动作模型即零样本策略。

立即阅读：（贴文链接）

Jim Fan@DrJimFan · X

精选导出 Markdown