NVIDIA科学家揭示机器人学三大痛点:硬件拖累迭代、基准混乱、VLA路线存在根本缺陷
硬件方面,Optimus等虽工程精湛,但可靠性不足严重限制软件迭代,且维护成本高昂。基准测试领域仍处混乱,缺乏统一的硬件平台、任务定义和评分标准,cherry-picking现象普遍,可复现性堪忧。VLA(Vision-Language-Action)方法基于VLM存在本质缺陷:VLM为视觉问答优化,参数侧重语言知识而非物理理解,且视觉编码器丢弃低层细节,不利于精细操作。作者认为视频世界模型是更优的预训练目标。
大家现在都在为“vibe coding”这事抓狂。趁着假期的氛围,请允许我聊聊我对机器人领域这片“狂野西部”的焦虑。这是我在 2025 年学到的 3 个教训。
- 硬件领先于软件,但硬件可靠性严重制约了软件迭代速度。
我们看到了精妙的工程艺术,比如 Optimus、e-Atlas、Figure、Neo、G1 等。但我们最优秀的 AI 还没有榨干这些前沿硬件的全部潜力。身体的能力超出了大脑能指挥的范围。然而,照顾这些机器人需要一整支运维团队。和人类不同,机器人不会从磕碰中自愈。过热、电机损坏、奇怪的固件问题每天都在困扰我们。错误是不可逆且不可原谅的。
我的耐心是唯一能随着规模增长的东西。
- 在机器人领域,基准测试仍然是一场史诗级的灾难。
大语言模型的圈内人以为 MMLU 和 SWE-Bench 是常识。先别急着喝啤酒,看看机器人的情况。没有人在任何事上达成一致:硬件平台、任务定义、评分标准、模拟器,还是真实世界设置。每个人都在自己为每次新闻发布临时定义的基准测试上,理所当然地宣称自己是 SOTA。每个人都在 100 次重试中挑出最好看的那个演示。
在 2026 年,我们整个领域必须做得更好,不能再把可重复性和科学纪律当成二等公民。
- 基于 VLM 的 VLA 这条路感觉不对劲。
VLA 代表“视觉-语言-行动”模型,一直是机器人大脑的主流方法。配方很简单:拿一个预训练的 VLM 检查点,在上面嫁接一个行动模块。但仔细想想,VLM 是被高度优化用来攀登诸如视觉问答这类基准测试的。这暗示了两个问题:(1)VLM 中的大部分参数用于语言和知识,而不是用于物理;(2)视觉编码器被主动调参以 *丢弃* 低级细节,因为问答只需要高层理解。但对于灵巧操作来说,细微的细节非常重要。
没有理由认为 VLA 的性能会随着 VLM 参数的规模而扩展。预训练的方向不对。视频世界模型似乎是机器人策略的一个更好的预训练目标。我在这上面押了重注。