Jim Fan 称机器人领域处 GPT-1 时刻,具身智能是 AGI 必要条件
机器人领域正处于类似 2018 年 NLP 的混沌期,技术路线未定(世界模型、RL、sim2real 等),商业模式百花齐放,是入局的好时机。管理实验室并直接向 4 万亿美元公司 CEO 汇报消耗了全部精力,故在 X 上发言减少。坚信没有具身智能就没有 AGI。
我最近在 X 上话少了一些。过去这一年是一段堪称转型的经历。Grok-4 和 Kimi K2 都令人惊叹,但机器人世界则是一片奇妙蛮荒的西部。这种感觉,就像 2018 年的 NLP——当时 GPT-1 发布,BERT 问世,还有成百上千种其他技术如繁花绽放。没有人知道哪一个最终会成为 ChatGPT。争论激烈,熵值极高,各种想法好玩到令人疯狂。
我相信机器人领域的 GPT-1 已经在 Arxiv 的某个地方出现了,但我们还不确定到底是哪一个。可能是世界模型、强化学习、从人类视频中学习、仿真到现实、现实到仿真等等等等,或者它们的任意组合。争论激烈,熵值极高,各种想法好玩到令人疯狂——而不是在 AIME 和 GPQA 基准上再挤那最后几个百分点的提升。
机器人学的本质也极大地复杂化了设计空间。与大语言模型干净整洁的比特世界(文本字符串)不同,我们机器人研究者必须处理混乱的原子世界。毕竟,整个回路中有一大块由软件定义的实体金属。大语言模型领域的普通研究者可能很难相信,但到目前为止,机器人研究者们甚至还没能就一个基准测试达成共识!不同的机器人有各自不同的能力边界——有些擅长杂技动作,而另一些则更擅长物体操作。有的用于工业场景,有的服务于家庭任务。跨实体能力不仅仅是一个研究上的新奇点,更是通用机器人大脑的一项基本特征。
我与来自多家机器人公司(既有老牌企业也有初创公司)的数十位高管进行了交流。有的公司出售完整的机器人本体,有的则卖灵巧手等身体部件。还有更多公司销售的是"铲子"——用来制造新机器人本体的工具、创建仿真环境的工具,或者收集海量数据集的工具。创业想法的空间与研究本身一样狂野。这是一场新的淘金热,其规模之大,是自 2022 年 ChatGPT 浪潮以来从未有过的。
入局的最佳时机,是在非共识达到顶峰之际。我们仍然处于一条损失曲线的起点——已经有很强的生命迹象,但距离收敛还极其遥远。每一步梯度更新,都将我们带向未知。但有一件事我确信无疑——没有在混乱世界中感知、体验并具身化,就没有 AGI。
从更个人的角度来说——运营一个研究实验室,意味着一整套全新量级的责任。直接向一家市值 4 万亿美元公司的 CEO 汇报工作进展——说得客气一点,这既令人振奋,也完全吞噬了我的注意力权重。那些我曾能紧跟并深入钻研每一条 AI 新闻的日子,已经一去不复返了。
我会尽量挤出时间,分享更多我的这段旅程。