李飞飞亲手给纷乱的「世界模型」下了个三分类——渲染、模拟、规划,而且点破模拟才是根基。做机器人、空间智能的人,这篇是今年的坐标系。
World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
世界模型的功能分类
“世界就是一切实际情况。” > —— 路德维希·维特根斯坦,《逻辑哲学论》,1921 年
世界并非由语言构成。
在早期的一篇文章中,我们提出空间智能是 AI 的下一个前沿,而世界模型是实现它的路径。在此,我与 World Labs 团队想深挖一层:在当下被构建且被称为“世界模型”的众多事物中,哪些功能模块实际上构成了这种能力——而每个模块又分别负责什么?
语言模型赋予了机器对概念、词汇和推理非凡的掌控力,但物理世界——无论虚拟还是现实——运行在截然不同的基质上。语言模型学习的是文本的统计结构,而世界模型学习的是空间和时间的统计结构:光线如何落在表面,花园从一个摄像头从未捕捉过的角度看起来如何,物体如何响应力并遵循物理定律。
这使得“世界模型”成为当今 AI 中既最重要也最被滥用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称在构建世界模型,且各自所指截然不同。一个能生成绚丽但物理上不可能的火焰的视频模型,一个即兴创作可玩游戏的语言模型,以及一个忠实模拟燃烧的物理引擎——统统被冠以同一个名称。
古希腊人从未就世界的构成达成一致,无论是火、水还是不可分割的原子,因为“世界”从来就不是单一事物。它始终是某个特定思想家需要推理的任何总体的代名词。AI 继承了同样的问题,而恰恰在这个领域需要精确性的时刻。
分类之下的循环
要厘清这种混淆,需要从一张比任何相关技术都更古老的图示入手。强化学习教材,包括经典的 Sutton 与 Barto 著作,几十年来一直使用该图的某个版本来描述智能体如何与世界交互。这个图示的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”这一术语的原始定义正出自这一传统。
一个智能体——可以是一个人、一台机器人或一个软件系统——会执行动作。这些动作会影响世界的状态。智能体永远无法直接看到这个状态。能够到达智能体的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测会指导新的动作,这个循环就这样持续下去。
“状态”这个词需要展开说明,因为它在不同领域的含义有所不同。这不是化学家所说的“状态”——即固态、液态和气态的区别。这是物理学家和机器人学家所说的“状态”:对某一时刻世界上正在发生的事情的完整描述,包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界背后的底层现实;原则上它是完整的,但任何身处其中的智能体都无法直接看到它。观测是智能体对该现实的局部视角。动作则是智能体对此做出的回应。
这个循环——从智能体到动作,到状态,到观测,再回到智能体——正是现代术语“世界模型”获得其技术含义的结构。这个短语本身更古老,可以追溯到 Kenneth Craik 在 1943 年提出的观点:心智通过运行现实的“小规模模型”来进行推理,并在 1980 年代末和 1990 年代初被引入神经网络。同时,这个循环也解释了今天人们在使用该术语时的含义。如今被称为世界模型的不同事物,实际上都是这个循环的不同投影。每一个都输出这个循环的不同部分。
世界模型的三种功能
第一种世界模型是渲染器。渲染器以像素的形式输出观测结果,这些像素旨在供人眼观看,而最重要的质量指标是视觉保真度。一个将文本提示词转化为电影级无人机航拍画面的视频模型就是渲染器。交互式系统也是如此,比如 Google 的 Genie 3,或 World Labs 自家的 RTFM,这些模型会根据用户输入实时生成画面。该模型并不具备对三维结构的显式理解。它产生的是观众会看到的东西,而不是实际存在的东西。无人机航拍中的建筑物从上方看可能完美无瑕,但如果你试图开车穿过下方的城市,它们就会分崩离析。
第二种是模拟器。模拟器输出的是状态:一种在几何、物理或动力学上对世界的忠实表达,人类和计算机程序都可以在其上进行计算和交互。渲染器的约定纯粹是视觉层面的,而模拟器的约定是结构性的,要求几何结构经得起检验、物理遵循牛顿定律、动力学行为按照物理规律呈现世界的应有状态。模拟器同时服务于两类使用者。建筑师、设计师、电影制作人和游戏开发者等人类专业人士需要的是超越视觉逼真度的准确性。强化学习智能体、机器人控制器和自动驾驶汽车等计算机程序则将模拟器作为训练场,在其中大规模地与世界交互,测试那些在现实中危险、昂贵或不可能运行的场景。
第三种是规划器。规划器输出的是动作。给定一个观察和一个目标,规划器回答的问题是智能体下一步应该做什么。从很多方面来看,这是渲染器的逆过程。渲染器将动作作为输入并输出观察,而规划器将观察作为输入并输出动作,从而闭合感知—行动回路。视觉-语言-动作模型、基于模型的系统以及新一波世界动作模型都是规划器的尝试——这些系统能够决定机器人在非结构化世界中应该做什么。
这三个类别描述了当今实际落地的大多数内容,它们之间的区别在实践中非常有用。然而,这些类别在根本上并非相互独立。对世界如何运转的同一套底层知识——几何、物理、动力学——是它们共同的基础。一个能从任意角度渲染杯子的模型,原则上也应该能够模拟杯子被推挤时会发生什么,并规划出一只手臂去拿起杯子。越来越多有趣的研究正在有意识地模糊这三者之间的界限。
为什么模拟器是关键
在这三个类别中,模拟器获得的公众关注度最低,但却是三者中最具深远意义的。本文正是为了纠正这种不对称性。
渲染器是目前商业上最成熟的技术。大量图像或文本生成视频的产品正在消费市场和企业市场迅速扩张。谷歌的 Nano Banana 模型将渲染器质量的图像生成交到了可能数亿用户手中。这项技术是真实的,市场也是真实的。然而,渲染器优化的是视觉可信度而非物理准确性,而这个天花板至关重要。它们的输出很漂亮,但无法被信赖用于设计建筑或训练机器人。
规划器是最有趣也最初始的技术,与快速发展的机器人学习领域紧密相连。该领域在过去两年中产出了在视频中看起来令人印象深刻的机器人演示,但需要坦诚地说这些演示实际上展示了什么。几乎所有这些演示都局限于高度受控的实验室环境,物体集合狭窄,任务时间跨度短。没有任何演示在现实世界部署所需的复杂性、可变性或持续时间上得到验证。从一段引人注目的演示片段到一台能在厨房、仓库或手术室中可靠工作的机器人之间,差距依然巨大。尽管如此,商业上的赌注依然巨大。一波资金充足的入局者正竞相推出通用规划系统,而最大的基础设施玩家则将规划置于更广泛的仿真堆栈之上。能规划的机器人就是能工作的机器人,整个行业都在竞相成为第一个实现这一目标的企业。
仿真是连接这两者的桥梁。如果语言是世界的抽象,像素是世界的投影,那么几何、物理和动力学就是世界本身。仿真器必须在那个层面上运作:它是结构性的支柱,从中可以推导出视觉外观(供渲染器使用)和行动后果(供规划器使用)。掌握仿真的模型可以将其理解投射到像素中供人类观看,也可以投射到动作预测中供具身智能体使用。只掌握渲染或只掌握规划的模型,两者都无法做到。商业覆盖面极其广阔。仅 NVIDIA 的 Omniverse 就瞄准了该公司估计超过一万亿美元的可寻址市场,涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程和药物发现都依赖于某种仿真形态的工具。
现存最难的开放性问题也存在于这个领域。具备显式几何、材质属性和物理标注的三维数据,其稀缺程度比渲染器训练所用的互联网视频数据要高出数个数量级。模拟与现实之间的差距——即事物在模拟中的表现与在现实中的表现之间的差异——依然存在。而生成式模拟器在此基础上引入了一种新的风险:AI 生成的几何体可能看起来正确,却包含自我交叉或错误的尺度,从而产生毫无意义的物理效果。在多物理场大规模模拟中,刚体、可变形物体、流体和布料之间相互交互,其成本仍然比单一领域的模拟高出数个数量级。
在 World Labs,Marble 是我们进入这一领域的首次尝试。它接受多模态提示(文本、图像、视频或空间草图),生成可探索的 3D 环境,输出高斯泼溅用于视觉探索,同时输出碰撞网格以供物理引擎操作。但 Marble 只是这个领域正在书写的更漫长篇章的第一章,因为渲染、模拟和规划之间的界限正在开始消融。
边界正在何处消融,以及接下来会发生什么
但更多的还在后面。目前该领域最重要的模式是,这三类范畴开始相互融合。共同的洞见是:渲染世界、模拟世界以及在其中行动所需的知识很大程度上是相同的。延续前面的例子,一个真正理解杯子如何放在桌子上(其几何形状、材质属性、对力的响应等)的模型,应当能够从任意角度渲染那个杯子,模拟杯子被推动时会发生什么,并规划一只手去拿起杯子。这三个类别是对同一基础理解的三种投射。
例如,来自各个机器人实验室的少量但不断增长的近期工作已经证明——至少从概念上讲——预训练的视频渲染器可以作为联合世界与动作预测的骨干,这表明在渲染器和规划器之间架起了一座桥梁,让一个模型去想象将会发生什么以及应该做什么。World Labs 的 Marble 已经从单一模型输出了高斯溅射和碰撞网格,消解了渲染器与模拟器之间的边界。每一个层面都在从被动输出转向交互式系统,渲染器变得以动作为条件,模拟器生成更可控、更可编辑的世界,而规划器则在深思熟虑而不仅仅是反应。
逻辑终点是统一的世界模型:一个基础模型,既能渲染逼真的视图,又能生成物理精确的结构,还能规划动作序列,并根据下游消费者需要切换输出模态。我们仍将面临许多严峻挑战。数据情况不均衡:渲染器有海量互联网视频可用,而模拟器和规划器则面临 3D 资产和机器人演示数据的严重短缺。优化视觉美感可能会牺牲机器人或高保真模拟所需的精度。在单一架构内调和这些矛盾,是当今世界模型研究中具有定义性的开放问题,而这正是 World Labs 在持续演进 Marble 的过程中着手解决的目标。
然而方向是明确的。自 1980 年代末以来,这个领域一直在押注同一个信念——一个足够丰富的世界模型就能让任何智能体看见世界、构建世界并在此世界中行动——如今这一信念正驱动着整整一代的研究。这一“大赌注”之所以分量十足,是因为融合已经在进行之中:三条线索——每一条本身都在驱动和塑造着价值数十亿美元的行业——最初是彼此独立的研究项目,现在开始表现得像一个整体。综合来看,随着它们之间的边界瓦解,它们将重塑更宏大的东西:机器智能与其所栖居的物理世界之间的关系——空间智能的长期弧线。
语言赋予了机器谈论这个世界的方式。而世界模型,则是机器最终理解、想象、推理并与这个世界交互的方式。