Karpathy解读Sutton对LLM的批判,提出「召唤幽灵」vs「构建动物」的深刻比喻,反思AI发展路径
Sutton(《The Bitter Lesson》作者)在播客中质疑 LLM 并非真正的"苦涩的教训"产物——它们依赖有限的人类数据且充满偏见。他主张 AI 应像动物一样通过 RL 与世界动态交互,而非模仿人类文本。作者认同 LLM 确实充斥人工干预,但认为预训练是应对冷启动的实用"进化替代方案",纯 RL 在现实世界难以行得通。
终于有机会听完了和Sutton的这期播客,既有趣又引人发笑。
作为背景,Sutton的《苦涩的教训》在顶尖大语言模型圈子里几乎成了圣经般的文本。研究人员经常讨论并质疑某个方法或想法是否足够"苦涩地受训"(意思是设计成能自动从增加计算中获益),以此作为判断它是否可行或是否值得尝试的指标。其隐含假设是,大语言模型当然高度"苦涩地受训",看看大语言模型的缩放定律就知道了:如果你把计算量放在x轴上,各种指标就会向右上升。所以有趣的是,这篇文章的作者Sutton本人并不确定大语言模型是否真的"苦涩地受训"。它们是在本质上属于人类数据的巨大数据集上训练的,这些数据既(1)由人类生成,又(2)是有限的。数据用完了怎么办?如何防止人类偏见?所以你看,那些"苦涩地受训"的大语言模型研究者被《苦涩的教训》的作者给驳倒了——真够惨的!
从某种意义上说,Dwarkesh(他在播客中代表了大语言模型研究者的观点)和Sutton之间有些话不投机,因为Sutton设想的是截然不同的架构,而大语言模型违背了他的许多原则。他自称“古典主义者”,并引用了Alan Turing最初提出的“儿童机器”概念——一种能够通过与世界动态互动、从经验中学习的系统。没有模仿互联网网页的庞大预训练阶段。也没有监督微调,他指出这在动物王国中是不存在的(这是一个微妙但Sutton在强意义上是对的:动物当然可以观察示范,但它们的行为并不会被其他动物直接强制/“远程操控”)。他提出的另一个重要观点是,即使你仅仅把预训练当作强化学习微调前的先验初始化步骤,Sutton也认为这种方法沾染了人类偏见,从根本上偏离了方向,有点像AlphaZero(从未见过人类围棋棋谱)击败AlphaGo(从人类棋局初始化)那样。在Sutton的世界观里,所有的一切都是通过与世界的互动来进行的强化学习,其中奖励函数部分取决于环境,但也由内在动机驱动,例如“乐趣”、“好奇心”,以及与你世界模型中预测质量相关的因素。而且智能体在测试时默认始终在学习,而不是一次性训练好然后部署后就不再变化。总体而言,Sutton更关心我们与动物王国之间的共同点,而非差异。“如果我们理解了松鼠,那我们就差不多完成了。”
至于我的看法……
首先我要说,我认为 Sutton 是这期播客的优秀嘉宾,而且我很高兴 AI 领域保持着思想的多样性,并非所有人都在利用 LLM 的下一次局部迭代。AI 已经经历了太多次主流方法的离散式转变,不能失去这种多样性。同时我也认为,他对 LLM 不够“苦涩教训化”的批评并不恰当。前沿大语言模型如今是高度复杂的人造产物,在各个环节都掺入了大量人为因素——基础(预训练数据)全部是人类文本,微调数据是经过人工筛选的,强化学习环境的混合方案也由人类工程师调校。我们实际上并没有一个真正干净、纯粹“苦涩教训化”的、可以扔到世上让它仅靠经验自主学习的“转动曲柄”式算法。
这样的算法真的存在吗?找到它当然会是一个巨大的 AI 突破。人们通常举出两个"实例证明"来论证这种事情是可能的。第一个例子是 AlphaZero 的成功,它在完全没有任何人类监督的情况下,从零开始学会了下围棋。但围棋显然是一个极其简单、封闭的环境,很难想象在混乱的现实世界中能找到类似的表述。我喜欢围棋,但从算法和范畴来看,它本质上就是井字棋的一个更难版本。第二个例子是动物,比如松鼠。而在这里,我个人也相当犹豫它是否合适,因为动物是通过一种非常不同的计算过程、在不同于我们行业实际可用的约束条件下产生的。动物的大脑远非它们在出生时看起来那样是一块白板。首先,很多通常被归为"学习"的东西,在我看来更多的是"成熟"。其次,即使那些明显是"学习"而非成熟的内容,也更多的是在一个本就强大且预先存在的东西之上进行"微调"。举个例子:小斑马出生后几十秒内,就能在稀树草原上奔跑并跟着它的母亲。这是一项高度复杂的感知运动任务,在我看来绝无可能从零开始、白板式地完成。动物的大脑及其内部的数十亿参数,在其 DNA 的 ATCG 编码中拥有强大的初始化,通过进化过程中的"外循环"优化训练而成。如果小斑马像强化学习策略在初始化时那样随机抽搐肌肉,它根本跑不了多远。同样,我们的 AI 如今也拥有数十亿参数的神经网络。这些参数需要它们自身丰富、高信息密度的监督信号。我们不会重新运行进化过程。但我们有海量的互联网文档。是的,这基本上是动物界几乎不存在的监督学习。但这是实际上收集足够多软约束来覆盖数十亿参数的一种方式,试图让你达到一个不再从零开始的起点。简而言之:预训练就是我们的拙劣版进化。它是冷启动问题的一种候选解决方案,随后再在看起来更正确的任务上进行微调,例如在强化学习框架内——正如如今最前沿的大语言模型实验室普遍所做的那样。
我仍然认为从动物身上汲取灵感是值得的。我认为大语言模型智能体在算法上还缺少几个强大的思路,这些思路仍然可以从动物智能中借鉴。而且我仍然认为痛苦的教训是正确的,但我更将其视为一种柏拉图式的追求目标,在我们现实世界中、从实际角度来说,不一定非要完全达到。我说这两种观点时都有百分之十几的不确定性,并且对那些持不同意见的人的工作表示鼓励,尤其是那些在痛苦的教训方面更有野心的人。
这就把我们带到了当下的处境。直白地说,今天的前沿大语言模型研究不是在建造动物。而是在召唤幽灵。你可以把幽灵理解为在可能的智能空间中一种根本不同的存在。它们被人类所混杂,被人类彻底工程化。它们是不完美的复制品,是对人类文献的一种统计蒸馏,再加上一些点缀。它们并不是柏拉图式地信奉痛苦的教训,但或许在"实际意义上"信奉痛苦的教训——至少相较于之前很多工作而言是如此。在我看来,随着时间推移,我们有可能进一步将我们的幽灵向动物的方向不断微调;这并不像是一种根本性的不相容,而更像是智能空间中的初始化问题。但也有可能它们会进一步分化,最终永久性地不同,不像动物,但仍然极为有用,并能真正改变世界。有可能幽灵之于动物,就如同飞机之于鸟类。
总之,概括来说,从可操作的角度看,我认为这一期播客是 Sutton 对前沿大语言模型研究者们一次扎实的"实话实说",这些研究者们可能过于偏向 exploit 模式了。很可能我们对痛苦的教训信奉得还不够,除了穷尽式的基准构建和刷榜之外,还有很大可能存在更强大的思路和范式。而动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋权、多智能体自博弈、文化。发挥你的想象力吧。