Jim Fan@DrJimFan

精选

2025-08-05 23:57·331天前

精选理由

NVIDIA提出用视频生成模型为机器人“造梦”合成训练数据，实现零样本技能泛化

AI 摘要

NVIDIA发布DreamGen引擎（GR00T Dreams），将Sora/Veo等视频生成模型用作神经物理引擎，通过微调模型、模拟并行世界、恢复伪动作、训练基础模型四步流程，为机器人生成大规模合成训练数据。人形机器人仅凭单一拾放任务即可学会倾倒、折叠等22种新行为，在新动词和陌生环境中实现零样本泛化（成功率分别达43%和28%）。相比传统图形引擎，该方法以恒定计算成本处理可变形物体、流体等复杂交互，团队计划数周内完全开源。

AI 翻译 · 中文

机器人领域的世界建模极其困难，因为 (1) 对类人机器人及五指手的控制，远比游戏中上⬆️左⬅️下⬇️右➡️（Genie 3 那样）要复杂得多；(2) 物体交互的多样性远超完全自动驾驶（FSD），因为 FSD 需要*避免*发生接触。我们的 GR00T Dreams 工作是构建高保真类人机器人世界模拟器的首次尝试。它不仅用于评估，还用于大规模合成数据生成。是时候告别机器人领域的"化石燃料"（人工遥操作），拥抱清洁能源（核"扩散模型"）了！

GR00T Dreams 之前有些低调，所以在今天这个欢乐的日子里让它重新焕发生机 ;)

Jim FanWhat if robots could dream inside a video generative model? Introducing DreamGen, a new engine that scales up robot learning not with fleets of human operators,...

具身智能视频论文/研究

在 X 查看原推

Jim Fan@DrJimFan · X