Orca论文提出“预测下一个状态”新范式,取代GPT式“预测下一个token”、视频“预测下一帧”和机器人“预测下一个动作”。它从125K小时视频和1.6亿事件标注中学习统一世界潜在表示,通过无意识学习(连续视频物理状态)和有意识学习(事件描述/VQA)捕获状态转换。冻结主干后,该潜在表示可同时读出文本、图像和机器人动作,且预训练无需动作标签即可生成机器人行动,表明理解物理世界隐含行动能力。
所有人都在预测下一个Token,可能大家都错了!
GPT预测下一个词,Sora预测下一帧,机器人模型预测下一个动作。 整个AI行业都在做"预测下一个"的游戏。
但Orca这篇论文说:你们都搞错了方向。
预测下一个token,本质上是统计模仿。
你给它"今天天气",它输出"真好",不是因为它理解天气,而是因为它见过太多次这个组合。
预测下一帧,本质上是像素插值。视频模型看起来在"想象"未来,其实只是在做图像的平滑过渡。
预测下一个动作,本质上是模式匹配。
机器人看到杯子,输出"抓取",不是因为它理解"抓"这个动作的物理含义,而是因为它在训练数据里见过太多次类似场景。
Orca的思路完全不同:预测下一个状态。
什么是状态?
不是表面的文字、像素或动作,而是背后隐藏的物理世界状态。
一个球在空中,状态包含它的位置、速度、重力影响、空气阻力,不是"球在画面中间"这个像素信息,而是"这个球正在以9.8m/s2的加速度下落"这个物理事实。
怎么学习状态?