李飞飞基于POMDP框架将世界模型分为三种功能:Renderer(渲染器,输出像素)、Simulator(模拟器,输出几何/物理状态)、Planner(规划器,输出动作)。渲染器已商业成熟(如文生视频),规划器受资本追捧,模拟器最关键但数据稀缺。World Labs的Marble项目可从多模态提示生成可探索3D环境,同时输出高斯溅射和碰撞网格。长期目标是统一模型,在渲染、模拟与规划间流畅切换。
刚刚看到李飞飞最新的发的文章,虽然没有了语言墙,但是还是喜欢自己翻译看一下完整的内容。👇🏻
"世界不是由词语构成的":Fei-Fei Li 论世界模型的三种形态与空间智能! (译)
> "The world is everything that is the case." --路德维希·维特根斯坦
一、世界不是由词语构成的。
语言模型在文本、概念和推理上表现出色,但物理世界运行在空间、时间、物理和几何之上。Fei-Fei Li(李飞飞)及其 World Labs 团队认为,空间智能(spatial intelligence) 是 AI 的下一个前沿,而世界模型(world models) 是通往这一目标的关键路径。
然而,"世界模型"这个词如今已被严重滥用。
计算机视觉、机器人、强化学习、生成式 AI 等不同社区对它的理解大相径庭。
李飞飞基于经典的 POMDP(部分可观测马尔可夫决策过程)/智能体-环境循环,给出了一个清晰的分类法。
世界模型的三种核心功能
1. Renderer(渲染器) 输出观察(observations),主要是像素,服务于人眼。 优化目标是视觉保真度和 plausibility(合理性)。