General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体
阅读原文· techcrunch.com用游戏按键数据训练世界模型,并在真机上八分钟完成适配,这个思路让具身智能看到了一条可规模化的路径。投资人押注的其实是 Medial 独有的动作标注数据飞轮。
General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。
一走进通用直觉公司(General Intuition)位于纽约办公室的研发楼层,这家公司 31 岁的联合创始人兼 CEO Pim de Witte 就示意我看一台放在升降桌上的显示器。屏幕里似乎有人在玩类似《堡垒之夜》的游戏——但那不是真人。
“我们的智能体已经连续玩了 100 个小时,”公司首席产品官 Kent Rollins 笑着说。
我还没来得及沉浸于 AI 在游戏虚拟环境中穿梭的场景,便听到一只大型四足机器人的电子脚步声正逐渐靠近。
“驱动游戏智能体的同一套大脑,也驱动着这台机器人,”de Witte 告诉我。数据分析师 Josh Duplantis 手里抱着笔记本电脑,屏幕上正实时播放着机器人单目摄像头的画面,他插话解释说,机器人的默认模式是“探索”。
依靠那只摄像头——它唯一的眼睛——这只像巨型昆虫一样的机器人走到我面前,绕了我一圈,然后继续在办公室里移动。它偶尔会碰到椅子腿,或者撞上某个乱放的垃圾桶,就像一个还不知道自己身体与周围世界如何相处的小孩。Duplantis 说,只用 8 分钟的实物机器人数据,就微调出了一个适用于四足机器人的 AI 模型。更重要的是,那些数据是在街边采集的,而不是在这间机器人目前正在自主导航的办公室内。
一个能够从游戏泛化到仿真再到具身化的智能体模型,正是通用直觉公司存在的理由。而这个模型理解自己在世界中位置的能力,也赢得了一些重量级玩家的支持。
周四,通用直觉公司宣布以 23 亿美元估值融资 3.2 亿美元,证实了 TechCrunch 此前的报道。继去年 10 月成立时筹集的 1.34 亿美元之后,本轮融资使通用直觉公司的总公开融资额达到 4.54 亿美元。
这家初创公司是从 de Witte 的另一家公司 Medal 分拆出来的,Medal 允许玩家上传和分享游戏视频片段。数亿小时的游戏视频上传量为通用直觉公司训练其模型的时空推理能力——即理解如何在空间和时间中移动——提供了初始数据集。
但关键要素并非游戏画面本身,而是嵌入在这些视频片段中的操作标签:它们精确记录了玩家在什么时间按下了什么按键。德维特表示,大多数竞争对手试图仅凭视频画面推断操作行为,他认为这种方法并不充分。
德维特说:“我们把这看作是未来预训练的下一阶段。我们有一个单一模型,既能响应《堡垒之夜》屏幕上的信息并采取行动,也能以LLM永远无法做到的方式理解现实世界的动态。”
有一次,德维特给我设置了一台运行General Intuition世界模型的笔记本电脑,该模型会逐帧生成模拟环境,而非由传统游戏引擎渲染。就像我在测试世界模型时经常做的那样,我径直走向了一堵墙。在我尝试过的其他演示中,你控制的智能体有时会直接穿墙而过,但这个模型不会。通过数百万小时的游戏画面,它不知怎么就学会了墙壁就是墙壁,梯子是用来攀爬的,影子会随着太阳移动而变长。
对于General Intuition来说,这个世界模型并非最终产品,而是训练环境(公司内部称之为“健身房”)。该公司最终想要出售的是智能体模型本身。德维特认为,嵌入在游戏画面中的操作数据能帮助模型以更丰富的方式区分“自我”与“环境”,从而更深刻地理解因果关系。
尽管General Intuition的技术在演示中看起来令人印象深刻,但该公司并非唯一试图攻克这一问题的团队。此外,要让这样一个模型在物理世界中大规模稳定运行,目前尚未实现。这类方法大多需要海量真实世界数据,而这些数据采集起来既缓慢又昂贵。General Intuition押注的是,游戏画面是一条可扩展的捷径。
投资者也认可这一赌注。General Intuition的最新一轮融资由Khosla Ventures领投,General Catalyst、杰夫·贝索斯、埃里克·施密特、尼科·罗斯伯格以及Google DeepMind和MIT的研究人员参投。
本轮融资的绝大部分资金将用于扩展计算能力。General Intuition 已与 CoreWeave 达成合作,并计划专注于下一版本模型的预训练。其中一部分资金已预留,用于在今年夏末之前更广泛地开放其 API。
领导本轮融资的 Vinod Khosla 表示,他被 de Witte 的愿景以及公司拥有的专有数据优势所吸引。
“看看大语言模型,当推理能力出现时,那是一个量子跃迁,”Khosla 在电话采访中告诉我。“对于世界模型,我认为量子跃迁将是 AI 中直觉的出现——一种类似人类直觉的能力。你在游戏中拥有的人类行为数据和反应数据,是直觉出现的关键部分。”
愿景是打造一家划时代的公司

General Intuition 并非唯一一家注意到 Medal 的人类行为数据是构建动态世界模型和通用智能体关键拼图的公司。该初创公司的幕僚长 Brianna Martin 表示,这家公司在 Medal 拒绝了某家大型实验室的收购要约后,部分由此而生。此后也收到了其他收购要约。
De Witte 及其联合创始人 Eloi Alonso、Adam Jelley 和 Vincent Micheli 对被收购不感兴趣,该初创公司的投资者目前也无意寻求退出。General Intuition 通过 Medal 获得的专有数据量和质量,是 Khosla 坚信这家初创公司是一个“世代级赌注”而非并购目标的原因之一;他认为这家公司有可能成为模拟和现实世界中通用智能体与世界模型的支柱。
“现阶段,那只会是一次数据收购,有点无聊,”Khosla 说。
这一赌注的一部分也涉及信任 de Witte 的价值观。
这位企业家在人道主义领域工作了七年,包括在无国界医生组织。因此,他为 General Intuition 技术的使用划定了清晰界限:不会使用任何智能体来伤害人类。
“我们不想成为系统中激化矛盾的一环,”德维特表示。“假设我站出来说,‘我们正在研发致命自主武器。’你觉得其他国家会作何反应?”
这种对军事用途的限制,正值硅谷对战争的态度日益激进之际。德维特表示,他很乐意将模型用于搜救任务,但他认为硅谷近来对国防的痴迷“感染了整个生态系统”。
德维特是荷兰人,他的团队大部分成员来自欧洲,这塑造了公司的身份认同。他说自己聘用马丁的部分原因,是她曾因Palantir与美国移民及海关执法局合作而公开辞职。
“我不明白硅谷为什么这么做,”他说。“这就是我为什么不在那里的原因。”
德维特的伦理观不仅限制了模型不会做什么。作为一个十几岁时通过搭建并运营私人RuneScape服务器赚了150万美元的玩家,德维特也在思考那些因AI模型能力而被抛在后面的人将面临什么。
General Intuition近期推出了一个名为Nerve的平台,这是一个就业市场,让玩家可以利用现有设备赚钱。注册用户从数据标注开始,最终可以转向机器人远程操作等其他任务。德维特指出,Medal的用户群恰恰是受AI驱动失业影响最深的一代人,他希望他们在即将到来的变革中拥有一份权益。
数据飞轮
德维特希望General Intuition能像Anthropic或OpenAI那样成为生态赋能者——一个模型提供商,让其他人能够在其技术基础上进行构建。如今,这家初创公司在游戏、仿真和机器人领域拥有少量客户。
“我们不会去创办一家自动驾驶汽车公司,”德维特说。“我们要让下一个人创办自动驾驶汽车公司的难度降低十倍。”
该公司表示,一旦将其API交到更多客户手中,它就能在各种应用场景中检验自身实力——比如在工厂车间的数字孪生环境中测试机器人,为游戏工作室提供类人智能体,或者让四足机器人在危险环境中导航。
四足机器人是 General Intuition 在现实世界中尝试的第一个物理具身形态,但他们也试过无人机和其他设备,包括在驾驶游戏中测试模型。
“任何能用游戏手柄或键盘鼠标操控的东西,它都能适配,”德维特说道。
构建数据飞轮的能力是其目标之一。
“我们会挑选那些能让我们多样化具身形态的客户——这个通用基础模型正是为这些形态提供底层支撑的,”德维特表示,“所以我们优先选择客户的标准,是看他们能否提供真实世界的数据,这些数据要有趣且有效,能推动研究取得突破。还要看他们内部团队是否足够敏捷,让我们能真正深入嵌入、彼此学习。”
科斯拉表示,General Intuition 的专有数据是它能走到今天的关键,而它能否持续收集别人没有的数据将至关重要。尤其因为,尽管演示效果令人印象深刻,但仿真到现实的迁移能否在规模化下成立,仍是一个尚未被完全回答的开放问题。