# 从"下一个词预测"到"世界建模"：AI预训练的第二范式

- 来源：Jim Fan (@DrJimFan)
- 发布时间：2026-02-04 02:31
- AIHOT 分数：72
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmo22oj0y010dslba9u0c1ul1
- 原文链接：https://x.com/DrJimFan/status/2018754323141054786

## 精选理由

Jim Fan 把世界模型定义为第二次预训练范式转移，核心论点是视觉优先而非语言优先，这个框架对做机器人和多模态的人是真正的路线判断，不是又一篇水文。

## AI 摘要

作者指出，AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列，本质上是可学习的物理模拟器，并将视觉置于首位。相比之下，当前主流的视觉语言模型本质是语言优先，视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位，是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例，证明强大的物理智能可独立于高级语言存在。他预测，2026年大型世界模型将为机器人技术和多模态AI奠定真正基础，而YouTube等平台的海量视觉数据将远超文本规模，推动这一新范式发展。

## 正文

# 第二个预训练范式

下一个词预测是第一个预训练范式。现在我们正经历第二个范式转变：世界建模，或者说“下一个物理状态预测”。很少有人理解这一转变有多么深远，因为不幸的是，目前世界模型最被炒作的应用场景是 AI 视频垃圾内容（以及即将到来的游戏垃圾内容）。我充满信心地打赌，2026 年将标志着大型世界模型为机器人和更广泛的多模态 AI 奠定真正基础的第一年。

在这个语境中，我将世界模型定义为：基于某个动作，预测下一个合理的世界状态（或持续一段时间的状态）。视频生成模型是它的一个实例，其中“下一个状态”是一系列 RGB 帧（大多为 8-10 秒，最长可达几分钟），“动作”是对要做什么的文本描述。训练过程涉及对数亿小时视频像素中的未来变化进行建模。核心而言，视频世界模型是可学习的物理模拟器和渲染引擎。它们捕捉反事实——一个更复杂的说法，即推理在给定不同动作的情况下未来会如何不同地展开。世界模型从根本上将视觉放在首位。

相比之下，视觉语言模型从根本上以语言为先。从最早的原型（例如 LLaVA，Liu 等人，2023）开始，故事基本如出一辙：视觉在编码器处进入，然后被路由到语言主干中。随着时间的推移，编码器不断改进，架构变得更加简洁，视觉试图变得更“原生”（如全模态模型）。然而它仍然是一个二等公民，被该领域多年来为大型语言模型所积累的肌肉力量所压倒。这条路径是便利的。我们知道大型语言模型可以规模化。我们的架构直觉、数据配方设计以及基准测试指导（VQAs）都高度针对语言进行了优化。

对于具身人工智能来说，2025年由VLA主导：在预训练的VLM检查点之上嫁接一个机器人电机动作解码器。它实际上是“LVA”：语言 > 视觉 > 动作，按重要性递减。同样，这条路径很方便，因为我们精通VLM的配方。然而，VLM中的大部分参数都分配给了知识（例如，“这团像素是可口可乐品牌”），而不是物理（“如果你倾斜可乐瓶，它会扩散成一滩棕色液体，弄脏白色桌布，并损坏电机”）。VLA在设计上非常擅长知识检索，但在错误的地方头部过重。多阶段嫁接设计也违背了我对简洁和优雅的品味。

从生物学角度看，视觉主导了我们的大脑皮层计算。大约三分之一的皮层专门用于处理枕叶、颞叶和顶叶区域的像素。相比之下，语言依赖于一个相对紧凑的区域。视觉是目前连接我们大脑、运动系统和物理世界的最高带宽通道。它闭环了“感知运动循环”——这是机器人技术中最重要的循环，中间完全不需要语言。

自然界为我们提供了一个存在性证明：一种具有极低语言能力但却高度灵巧的物理智能。猿类。

我见过猿类像人类机械师一样驾驶高尔夫球车、用螺丝刀更换刹车片。它们的语言理解能力不亚于BERT或GPT-1，但它们的物理技能远超我们最先进的机器人所能做到的。猿类可能没有好的语言模型，但它们肯定拥有对“如果……会怎样”的稳健心理图像：物理世界如何运作，以及如何响应它们的干预。

世界建模的时代已经到来。它充满了苦涩的教训。正如Jitendra喜欢提醒我们这些扩展成瘾者：“监督是AI研究者的鸦片。”整个YouTube和智能眼镜的兴起将以远超我们训练过的所有文本的规模，捕捉我们世界的原始视觉流。

我们将看到一种新型的预训练：下一个世界状态可能不仅包括RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到一种新型的推理：在视觉空间中而非语言空间中的思维链。你可以通过模拟几何和接触来解物理谜题，想象零件如何移动和碰撞，而无需将其翻译成字符串。语言是一个瓶颈、一个脚手架，而不是基础。

我们将面对一个全新的潘多拉魔盒，里面装满了悬而未决的问题：即使有了完美的未来模拟，运动动作应如何解码？像素重建真的是最好的目标吗，还是应该探索其他潜在空间？我们需要多少机器人数据，扩展遥操作是否仍是答案？而在所有这些尝试之后，我们是否终于要迎来机器人的 GPT-3 时刻了？

伊利亚终究是对的。AGI 尚未收敛。我们又回到了研究的时代，而没有什么比挑战第一性原理更令人兴奋的了。
