Berryxia.AI@berryxia

2026-07-03 10:49·1小时前

AI 摘要

Orca论文提出“预测下一个状态”新范式，取代GPT式“预测下一个token”、视频“预测下一帧”和机器人“预测下一个动作”。它从125K小时视频和1.6亿事件标注中学习统一世界潜在表示，通过无意识学习（连续视频物理状态）和有意识学习（事件描述/VQA）捕获状态转换。冻结主干后，该潜在表示可同时读出文本、图像和机器人动作，且预训练无需动作标签即可生成机器人行动，表明理解物理世界隐含行动能力。

所有人都在预测下一个Token，可能大家都错了！

GPT预测下一个词，Sora预测下一帧，机器人模型预测下一个动作。整个AI行业都在做"预测下一个"的游戏。

但Orca这篇论文说：你们都搞错了方向。

预测下一个token，本质上是统计模仿。

你给它"今天天气"，它输出"真好"，不是因为它理解天气，而是因为它见过太多次这个组合。

预测下一帧，本质上是像素插值。视频模型看起来在"想象"未来，其实只是在做图像的平滑过渡。

预测下一个动作，本质上是模式匹配。

机器人看到杯子，输出"抓取"，不是因为它理解"抓"这个动作的物理含义，而是因为它在训练数据里见过太多次类似场景。

Orca的思路完全不同：预测下一个状态。

什么是状态？

不是表面的文字、像素或动作，而是背后隐藏的物理世界状态。

一个球在空中，状态包含它的位置、速度、重力影响、空气阻力，不是"球在画面中间"这个像素信息，而是"这个球正在以9.8m/s2的加速度下落"这个物理事实。

怎么学习状态？

两种方式：

1、无意识学习- 直接从连续视频中学习。

像婴儿一样，不需要有人告诉你"球在下落"，你看多了自然就懂了物理规律。

这种方式捕获密集的物理状态转换--每一帧之间的变化，每一个物体的运动轨迹，每一次碰撞的因果关系。

2、有意识学习：用语言描述的事件和视觉问答来学习。

比如"球落地了"、"门被打开了"、"猫从桌上跳下来了"。这些是有意义的语义事件，不是连续的像素变化，是离散的、有因果关系的状态转换。

训练规模： - 12.5万小时视频 - 相当于一个人连续看14年 - 1.6亿事件标注 - 每个事件都有语言描述 - 大规模世界学习库存数据 - 覆盖各种物理场景

最强的发现：预训练阶段没用任何动作标签，但模型自己学会了行动。

这意味着什么？

传统机器人学习需要大量的"动作标签"，告诉机器人"在这个状态下，应该执行这个动作"。

但Orca证明：理解物理世界本身就隐含了行动能力。

你不需要教机器人"抓杯子"，你只需要让它看100万次杯子被抓住的视频。

当它真正理解了"抓"这个动作的物理含义，手的形状、力的方向、物体的重量、接触面的摩擦，它自然就知道怎么抓了。

这和GPT的区别是什么？

GPT是"模仿"，它见过太多"今天天气"后面跟着"真好"，所以它输出"真好"。

它不知道天气是什么，不知道"好"是什么感觉，它只是在做统计匹配。

Orca是"理解"，它不是在模仿"球落地"这个像素序列，而是在理解"重力让球下落"这个物理规律。

当它看到一个新的场景：比如一个球在太空中漂浮--它能推理出"这里没有重力，所以球不会下落"。

这可能是从"模仿"到"理解"的临界点。

AI行业一直在争论：大语言模型到底是在"理解"还是在"模仿"？

大部分人认为是模仿：因为GPT没有身体，没有物理体验，它怎么能真正"理解"物理世界？

但Orca给出了一种可能：通过大规模视频学习，AI可以建立对物理世界的"内在表示"。

不是模仿表面的像素变化，而是理解背后的状态转换。

当这个内在表示足够强，它就能同时支持语言生成（描述发生了什么）、图像预测（下一帧会是什么样）和机器人行动（接下来该做什么）。

一个模型，同时理解语言、视觉和行动。

这可能是通向AGI的另一条路：不是更大的语言模型，是更好的世界模型。

论文地址👇🏻

alphaXivNext state prediction instead of next token, frame or action. This paper, Orca, learns a unified world latent from video and language, then freezes the backbone...

具身智能多模态大佬观点推理

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

58导出 Markdown