AI中心的数据黑洞
Dwarkesh 把 AI 的‘笨’归因于数据效率远低于人类,计算虽简但直指要害,他给出的一个逆向洞察是开源模型四个月追上闭源,正是数据驱动进步的最好证据。
智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。
智能的一种定义是样本效率——也就是说,你在某个领域内需要看到多少数据,才能流畅而熟练地操作。目前还不清楚我们在训练样本效率方面过去几年是否取得了真正进展;似乎更多的是,我们极大地扩展并改善了数据分布。
人工智能能力提升的主要方式,是添加更多、更好的数据,并扩展计算能力来首先生成这些数据。显然,强化学习(RL)是实现这一目标的主要途径。你可以将 RL 看作一种合成数据生成方式——你投入大量算力,针对一个验证器,来找到“好的”数据。然后你训练你的模型去预测这些正确的推演结果,这与训练它预测互联网文本中的下一个词,方法大致相同。
要使这个过程生效,模型必须至少具备一定的先验概率来预判正确的解决方案,这就是为什么在每一个你希望模型胜任的领域和技能中,你还需要海量的、突破人类思维极限的人类专家轨迹(trajectories)数据。
很难夸大这些人类专家数据有多么任务特定和高度定制。如果你想获得一些直观感受,去 Mercor 或 Surge 的网站看看招聘信息吧。上面有招聘 Word 专家的职位,负责将遗留文档转化为精良的 Word 文件;有招聘法律专家,负责撰写逼真的并购尽职调查或证券备案文件;还有招聘管理顾问,负责撰写模板式市场调研,以及几十种其他特定类别。
而且,不仅数据需要如此领域特定,其数量也必须非常庞大!每一项技能至少对应着数百名人类专家,他们负责生成示例完成结果、编写评估标准、并解释他们的思维链。生产这些专家标注(以及精心编录的技能能够固化的RL环境)的数据产业,每年营收达数十亿美元,很快就会达到数百亿,这并非没有原因。
想象一下,如果你需要花费几十年时间、修读数百门不间断的教授课程、完成数百万道练习任务,才能学会如何排版一个Word文档。就连任务数量的差异都低估了这种差距——模型需要反复打磨数量多得多、难度也大得多的任务。人类学生可能把一道教科书习题练上一两遍,而GRPO却让模型为每个任务生成成百上千条推演路径。我们正在建造某种弗兰肯斯坦式的怪物,身上缝合了十亿个精心构造的示例移植块。
Epoch最近报告称,开源模型与最先进闭源模型的差距只有4个月。我认为,开源及此前落后的玩家之所以能相对容易地在几个月内追赶上前沿,原因在于数据才是进步的真正驱动力。数据可以轻松地从公开API中蒸馏得到,而超参数、训练技巧、架构层面的微优化则无法做到——如果后者才是进步的主要推动力,那么追赶起来就会比我们观察到的困难得多。
我们很容易忘记这些模型是在多么庞大的数据上训练的,也忘记这比我们人类一生所见的数据多出多少倍。我们将这些AI视为一座闪耀着能力的星系,但在它们的中心,肉眼不可见之处,维系着所有星座的,是一颗难以想象的数据黑洞。
中场:比较人与AI的样本效率
如果一个人平均每小时听到和看到约2000个单词,那么从出生到成年,他们将看到约2亿个模型token。相比之下,前沿模型的训练数据量在数十万亿到数百万亿个token之间。这几乎是百万倍的差距。
一个人可以在几小时内学会远程操控任意一款人形机器人或机械臂。机器人技术之所以还没有成为一个万亿美元级别的产业,让无穷无尽的宇树G1机器人大军在世界上从事各种有用工作,原因在于我们的AI学习效率远不及人类,而且即便我们收集了数百万小时的演示数据,也不足以让它们完成复杂、开放式的任务。
一个青少年大约练习20小时就能学会开车。即便把其约16年积累的身体直觉也算作相关训练数据,那也至少比Waymo和特斯拉训练自动驾驶模型所需的数据量少3到4个数量级。
我想回应一下对这种比较的几种常见反驳意见。
数十亿年的进化就是我们的预训练,所以把我们一生中看到的极少数据量与那些从零开始的大语言模型必须学的东西相比较是不公平的。
我们的基因组约3GB,其中约1-2%是蛋白质编码区。这根本不足以存储据称是预训练所得的模型参数(前沿模型有太字节大小)。更贴切的类比可能是,进化找到了合适的超参数和损失函数(附注:我与Adam Marblestone做过一期有趣的播客,他认为损失函数是进化更重要的发现),但相当于参数训练的部分仍然是在一生中完成的,并编码在大脑一生中建立起来的神经连接图谱中。
即使我们可以把预训练基础模型所需的数万亿个token解释为追赶进化的成本,那也无法解释为什么边际能力需要如此多的数据——一旦你受过教育,学习一门新编程语言不需要100个不同的教授,但AI(即便已经预训练过)却需要。
这些比较没有包括我们一生中看到的多模态数据。如果加上所有这些感官信息,从出生到成年我们可能接触了数十到数百亿个token的范围内。
失去这种感官信息的盲人/聋人可能会在相关感官能力上有所欠缺,但仍拥有与其他人相同的一般智力。这表明这数十亿感官token并不是让人变聪明的真正原因。
事实上,只能通过手语和阅读(而非听力)进行沟通的聋人,他们所摄入的语言量远低于我们之前计算的2亿个模型token,但即便如此,这也足以让他们成为完全通用智能体。
规模定律告诉我们,更大的模型具有更高的样本效率。人脑拥有100万亿个突触——如果每个突触约等于1个参数,而当前前沿模型大约有5万亿个参数,那么或许我们只需再增加一到两个数量级的参数规模,就能达到人类水平的样本效率。
规模定律方程的工作方式是:参数项和数据项独立地贡献于损失函数。假设一个模型在计算最优条件下训练,然后你问:如果我想最大化样本效率、使用更少的数据,并且愿意投入任意多的参数来达成这一点,结果会怎样?根据Chinchilla规模定律论文中的常数(即使使用不同常数,结果性质也不会改变),即使将参数数量增加到无穷大,也只能将维持相同损失所需的数据量减少大约10倍。而人类的样本效率比这些模型高出数千到数百万倍。当前模型的规模扩展根本无法弥补这一差距。这确实表明,人类完全处于一条不同的规模曲线上。
样本效率重要吗?
但你可能要问,为什么样本效率重要?各大实验室有两个总体目标:实现白领工作自动化,以及实现AI研究本身的自动化。人类水平的样本效率对这两个目标是否必要?
对于白领工作的赌注在于,软件工程师、分析师或会计师所做的常见任务,嗯,就是很常见的。我们可以通过强化学习和监督微调相当容易地将常见任务纳入分布。这些AI实验室的收入曲线表明,即使我们无法复制人类的样本效率,将任务纳入分布也能带来巨大的价值。
训练AI执行这些任务,确实比训练人类低效得多。但那又怎样?人类的寿命不足以支撑这类模型所经历的训练数量与广度。如果你作为人类患有某种奇特的学习障碍,需要读取GitHub上每一个公开仓库才能成为一名合格的开发者,那么训练你毫无意义——你在教育早期就该领社保了,就算最终训练完成,一次也只能处理一个项目。但AI可以通过一次输入千兆瓦级别的训练量来学习这些技能,而它们学到的东西可以分摊到数十亿次会话使用。因此,我们在训练AI时可以极其低效,仍然能大赚特赚。
白领员工需要多少你根本无法提前训练的“分布外”思考?这个问题更多关乎不同工作的性质,而非AI研究本身。但也取决于具体工作——有些工作足够机械和可预测,早在现代AI时代之前就被自动化了,比如银行出纳或旅行社代理。而另一些工作则需要每天应对与数据分布相距甚远的问题。就连软件工程(AI本应最先取代的工作)也是如此。我敢打赌,2028年对人类软件工程师的总需求会比现在更高,在很大程度上是因为AI的互补性输入。
各实验室对这些后期类型工作的计划是:首先实现AI研究的自动化,然后让自动化的AI研究人员去解决样本效率问题。那么问题就是:样本效率不如人类的AI,能否在通往类人智能和学习的道路上,依然解决剩余的研究难题?
那个问题我会在未来的博客文章中讨论——我认为人们目前对智能爆炸的思考方式相当笨拙。要么人们完全否定人工智能加速自身进步的可能性,要么他们就假定上帝从另一端冒出来。人们并没有去推演:从大语言模型出发,极其快速的进步到底会是什么样子。
赞助商
感谢 Mercury 赞助本文!
Mercury 刚刚发布了一项名为 Command 的新功能,它让我能在银行平台上直接使用 AI。由于我几乎用 Mercury 来运营整个业务,Command 能够访问它完成实际工作所需的所有信息。我可以让它发送发票、分类支出,甚至转账……而 Command 会直接处理这些。了解更多请访问 mercury.com/command