# 李飞飞：世界模型三功能--渲染、模拟、规划，模拟器最稀缺

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-04 09:21
- AIHOT 分数：45
- AIHOT 链接：https://aihot.virxact.com/items/cmpyu9uin03d7sli3qc8b7372
- 原文链接：https://x.com/berryxia/status/2062343921116852489

## AI 摘要

李飞飞基于POMDP框架将世界模型分为三种功能：Renderer（渲染器，输出像素）、Simulator（模拟器，输出几何/物理状态）、Planner（规划器，输出动作）。渲染器已商业成熟（如文生视频），规划器受资本追捧，模拟器最关键但数据稀缺。World Labs的Marble项目可从多模态提示生成可探索3D环境，同时输出高斯溅射和碰撞网格。长期目标是统一模型，在渲染、模拟与规划间流畅切换。

## 正文

刚刚看到李飞飞最新的发的文章，虽然没有了语言墙，但是还是喜欢自己翻译看一下完整的内容。👇🏻

"世界不是由词语构成的"：Fei-Fei Li 论世界模型的三种形态与空间智能！ （译）

> "The world is everything that is the case."
--路德维希·维特根斯坦

一、世界不是由词语构成的。

语言模型在文本、概念和推理上表现出色，但物理世界运行在空间、时间、物理和几何之上。Fei-Fei Li（李飞飞）及其 World Labs 团队认为，空间智能（spatial intelligence） 是 AI 的下一个前沿，而世界模型（world models） 是通往这一目标的关键路径。

然而，"世界模型"这个词如今已被严重滥用。

计算机视觉、机器人、强化学习、生成式 AI 等不同社区对它的理解大相径庭。

李飞飞基于经典的 POMDP（部分可观测马尔可夫决策过程）/智能体-环境循环，给出了一个清晰的分类法。

世界模型的三种核心功能

1. Renderer（渲染器）
输出观察（observations），主要是像素，服务于人眼。
优化目标是视觉保真度和 plausibility（合理性）。

典型代表：文生视频模型、Google 的 Genie、World Labs 的 RTFM。

局限：画面可以非常完美，但在物理交互或细致检验下容易崩坏--"好看但不结实"。

2. Simulator（模拟器）
输出状态（state）--对世界进行几何和物理上准确的表征。
必须严格遵守物理、碰撞、动力学和材料特性。

既服务于人类（设计、建筑、影视），也服务于机器（训练 RL 智能体、机器人、自动驾驶）。

李飞飞认为这是最关键的一环。它是从渲染和规划中都可以派生出来的结构主干。

当前最大挑战：3D/物理数据极度稀缺、sim-to-real 差距、多物理场 scaling 困难。

3. Planner（规划器）

根据观察和目标输出动作（actions）。
它闭合了感知-行动循环，包括视觉-语言-动作模型以及新兴的"世界动作模型"。

目前大多仍局限于受限的实验室环境。

核心观点

模拟器是最重要、却最不被炒作的那一个。

渲染器已经商业成熟（视频生成赛道）。
规划器正获得大量关注和资金（机器人公司）；
而模拟器连接两者，是实现可靠真实世界应用的关键。

最激动人心的进展在于边界的模糊：

同一套底层知识（几何 + 物理 + 动力学）应该同时支持渲染、模拟和规划。

World Labs 的 Marble 项目就是典型例子，它能从多模态提示生成可探索的 3D 环境，同时输出高斯溅射（用于视觉）和碰撞网格（用于物理）。

长期愿景是一个统一的世界模型，一个基础模型能够流畅地在照片级写实的渲染、精确物理模拟、动作规划三种模式之间切换。

结语

语言让机器学会了"谈论"世界。
而世界模型，才是机器真正理解、想象、推理并在其中行动的方式。

这是一篇信息密度极高的文章，既有技术哲学深度，也清晰地表明了 World Labs 的战略方向。

### 引用推文

> Fei-Fei Li：http://x.com/i/article/2062244283940544512
