Jim Fan 把世界模型定义为第二次预训练范式转移,核心论点是视觉优先而非语言优先,这个框架对做机器人和多模态的人是真正的路线判断,不是又一篇水文。
作者指出,AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列,本质上是可学习的物理模拟器,并将视觉置于首位。相比之下,当前主流的视觉语言模型本质是语言优先,视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位,是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例,证明强大的物理智能可独立于高级语言存在。他预测,2026年大型世界模型将为机器人技术和多模态AI奠定真正基础,而YouTube等平台的海量视觉数据将远超文本规模,推动这一新范式发展。
第二个预训练范式
下一个词预测是第一个预训练范式。现在我们正经历第二个范式转变:世界建模,或者说“下一个物理状态预测”。很少有人理解这一转变有多么深远,因为不幸的是,目前世界模型最被炒作的应用场景是 AI 视频垃圾内容(以及即将到来的游戏垃圾内容)。我充满信心地打赌,2026 年将标志着大型世界模型为机器人和更广泛的多模态 AI 奠定真正基础的第一年。
在这个语境中,我将世界模型定义为:基于某个动作,预测下一个合理的世界状态(或持续一段时间的状态)。视频生成模型是它的一个实例,其中“下一个状态”是一系列 RGB 帧(大多为 8-10 秒,最长可达几分钟),“动作”是对要做什么的文本描述。训练过程涉及对数亿小时视频像素中的未来变化进行建模。核心而言,视频世界模型是可学习的物理模拟器和渲染引擎。它们捕捉反事实——一个更复杂的说法,即推理在给定不同动作的情况下未来会如何不同地展开。世界模型从根本上将视觉放在首位。
相比之下,视觉语言模型从根本上以语言为先。从最早的原型(例如 LLaVA,Liu 等人,2023)开始,故事基本如出一辙:视觉在编码器处进入,然后被路由到语言主干中。随着时间的推移,编码器不断改进,架构变得更加简洁,视觉试图变得更“原生”(如全模态模型)。然而它仍然是一个二等公民,被该领域多年来为大型语言模型所积累的肌肉力量所压倒。这条路径是便利的。我们知道大型语言模型可以规模化。我们的架构直觉、数据配方设计以及基准测试指导(VQAs)都高度针对语言进行了优化。
对于具身人工智能来说,2025年由VLA主导:在预训练的VLM检查点之上嫁接一个机器人电机动作解码器。它实际上是“LVA”:语言 > 视觉 > 动作,按重要性递减。同样,这条路径很方便,因为我们精通VLM的配方。然而,VLM中的大部分参数都分配给了知识(例如,“这团像素是可口可乐品牌”),而不是物理(“如果你倾斜可乐瓶,它会扩散成一滩棕色液体,弄脏白色桌布,并损坏电机”)。VLA在设计上非常擅长知识检索,但在错误的地方头部过重。多阶段嫁接设计也违背了我对简洁和优雅的品味。
从生物学角度看,视觉主导了我们的大脑皮层计算。大约三分之一的皮层专门用于处理枕叶、颞叶和顶叶区域的像素。相比之下,语言依赖于一个相对紧凑的区域。视觉是目前连接我们大脑、运动系统和物理世界的最高带宽通道。它闭环了“感知运动循环”——这是机器人技术中最重要的循环,中间完全不需要语言。
自然界为我们提供了一个存在性证明:一种具有极低语言能力但却高度灵巧的物理智能。猿类。
我见过猿类像人类机械师一样驾驶高尔夫球车、用螺丝刀更换刹车片。它们的语言理解能力不亚于BERT或GPT-1,但它们的物理技能远超我们最先进的机器人所能做到的。猿类可能没有好的语言模型,但它们肯定拥有对“如果……会怎样”的稳健心理图像:物理世界如何运作,以及如何响应它们的干预。
世界建模的时代已经到来。它充满了苦涩的教训。正如Jitendra喜欢提醒我们这些扩展成瘾者:“监督是AI研究者的鸦片。”整个YouTube和智能眼镜的兴起将以远超我们训练过的所有文本的规模,捕捉我们世界的原始视觉流。
我们将看到一种新型的预训练:下一个世界状态可能不仅包括RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。
我们将看到一种新型的推理:在视觉空间中而非语言空间中的思维链。你可以通过模拟几何和接触来解物理谜题,想象零件如何移动和碰撞,而无需将其翻译成字符串。语言是一个瓶颈、一个脚手架,而不是基础。
我们将面对一个全新的潘多拉魔盒,里面装满了悬而未决的问题:即使有了完美的未来模拟,运动动作应如何解码?像素重建真的是最好的目标吗,还是应该探索其他潜在空间?我们需要多少机器人数据,扩展遥操作是否仍是答案?而在所有这些尝试之后,我们是否终于要迎来机器人的 GPT-3 时刻了?
伊利亚终究是对的。AGI 尚未收敛。我们又回到了研究的时代,而没有什么比挑战第一性原理更令人兴奋的了。