# 最近在 X 上较为沉默。过去一年是转型之旅。Grok-4 与…

- 来源：Jim Fan (@DrJimFan)
- 发布时间：2025-07-14 01:06
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1ysuy0104slc3sj6ivxc3
- 原文链接：https://x.com/DrJimFan/status/1944443447953498285

## 精选理由

Jim Fan 称机器人领域处 GPT-1 时刻，具身智能是 AGI 必要条件

## AI 摘要

机器人领域正处于类似 2018 年 NLP 的混沌期，技术路线未定（世界模型、RL、sim2real 等），商业模式百花齐放，是入局的好时机。管理实验室并直接向 4 万亿美元公司 CEO 汇报消耗了全部精力，故在 X 上发言减少。坚信没有具身智能就没有 AGI。

## 正文

我最近在 X 上话少了一些。过去这一年是一段堪称转型的经历。Grok-4 和 Kimi K2 都令人惊叹，但机器人世界则是一片奇妙蛮荒的西部。这种感觉，就像 2018 年的 NLP——当时 GPT-1 发布，BERT 问世，还有成百上千种其他技术如繁花绽放。没有人知道哪一个最终会成为 ChatGPT。争论激烈，熵值极高，各种想法好玩到令人疯狂。

我相信机器人领域的 GPT-1 已经在 Arxiv 的某个地方出现了，但我们还不确定到底是哪一个。可能是世界模型、强化学习、从人类视频中学习、仿真到现实、现实到仿真等等等等，或者它们的任意组合。争论激烈，熵值极高，各种想法好玩到令人疯狂——而不是在 AIME 和 GPQA 基准上再挤那最后几个百分点的提升。

机器人学的本质也极大地复杂化了设计空间。与大语言模型干净整洁的比特世界（文本字符串）不同，我们机器人研究者必须处理混乱的原子世界。毕竟，整个回路中有一大块由软件定义的实体金属。大语言模型领域的普通研究者可能很难相信，但到目前为止，机器人研究者们甚至还没能就一个基准测试达成共识！不同的机器人有各自不同的能力边界——有些擅长杂技动作，而另一些则更擅长物体操作。有的用于工业场景，有的服务于家庭任务。跨实体能力不仅仅是一个研究上的新奇点，更是通用机器人大脑的一项基本特征。

我与来自多家机器人公司（既有老牌企业也有初创公司）的数十位高管进行了交流。有的公司出售完整的机器人本体，有的则卖灵巧手等身体部件。还有更多公司销售的是"铲子"——用来制造新机器人本体的工具、创建仿真环境的工具，或者收集海量数据集的工具。创业想法的空间与研究本身一样狂野。这是一场新的淘金热，其规模之大，是自 2022 年 ChatGPT 浪潮以来从未有过的。

入局的最佳时机，是在非共识达到顶峰之际。我们仍然处于一条损失曲线的起点——已经有很强的生命迹象，但距离收敛还极其遥远。每一步梯度更新，都将我们带向未知。但有一件事我确信无疑——没有在混乱世界中感知、体验并具身化，就没有 AGI。

从更个人的角度来说——运营一个研究实验室，意味着一整套全新量级的责任。直接向一家市值 4 万亿美元公司的 CEO 汇报工作进展——说得客气一点，这既令人振奋，也完全吞噬了我的注意力权重。那些我曾能紧跟并深入钻研每一条 AI 新闻的日子，已经一去不复返了。

我会尽量挤出时间，分享更多我的这段旅程。
