Jim Fan@DrJimFan

精选

2025-12-29 02:11·186天前

精选理由

NVIDIA科学家揭示机器人学三大痛点：硬件拖累迭代、基准混乱、VLA路线存在根本缺陷

AI 摘要

硬件方面，Optimus等虽工程精湛，但可靠性不足严重限制软件迭代，且维护成本高昂。基准测试领域仍处混乱，缺乏统一的硬件平台、任务定义和评分标准，cherry-picking现象普遍，可复现性堪忧。VLA（Vision-Language-Action）方法基于VLM存在本质缺陷：VLM为视觉问答优化，参数侧重语言知识而非物理理解，且视觉编码器丢弃低层细节，不利于精细操作。作者认为视频世界模型是更优的预训练目标。

AI 翻译 · 中文

大家现在都在为“vibe coding”这事抓狂。趁着假期的氛围，请允许我聊聊我对机器人领域这片“狂野西部”的焦虑。这是我在 2025 年学到的 3 个教训。

硬件领先于软件，但硬件可靠性严重制约了软件迭代速度。

我们看到了精妙的工程艺术，比如 Optimus、e-Atlas、Figure、Neo、G1 等。但我们最优秀的 AI 还没有榨干这些前沿硬件的全部潜力。身体的能力超出了大脑能指挥的范围。然而，照顾这些机器人需要一整支运维团队。和人类不同，机器人不会从磕碰中自愈。过热、电机损坏、奇怪的固件问题每天都在困扰我们。错误是不可逆且不可原谅的。

我的耐心是唯一能随着规模增长的东西。

在机器人领域，基准测试仍然是一场史诗级的灾难。

大语言模型的圈内人以为 MMLU 和 SWE-Bench 是常识。先别急着喝啤酒，看看机器人的情况。没有人在任何事上达成一致：硬件平台、任务定义、评分标准、模拟器，还是真实世界设置。每个人都在自己为每次新闻发布临时定义的基准测试上，理所当然地宣称自己是 SOTA。每个人都在 100 次重试中挑出最好看的那个演示。

在 2026 年，我们整个领域必须做得更好，不能再把可重复性和科学纪律当成二等公民。

基于 VLM 的 VLA 这条路感觉不对劲。

VLA 代表“视觉-语言-行动”模型，一直是机器人大脑的主流方法。配方很简单：拿一个预训练的 VLM 检查点，在上面嫁接一个行动模块。但仔细想想，VLM 是被高度优化用来攀登诸如视觉问答这类基准测试的。这暗示了两个问题：（1）VLM 中的大部分参数用于语言和知识，而不是用于物理；（2）视觉编码器被主动调参以 *丢弃* 低级细节，因为问答只需要高层理解。但对于灵巧操作来说，细微的细节非常重要。

没有理由认为 VLA 的性能会随着 VLM 参数的规模而扩展。预训练的方向不对。视频世界模型似乎是机器人策略的一个更好的预训练目标。我在这上面押了重注。

Jim Fan@DrJimFan · X

精选导出 Markdown