# 听完 Sutton 的这期播客：有趣且发人深省

- 来源：Andrej Karpathy (@karpathy)
- 发布时间：2025-10-02 01:09
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1yovj00m4slc3f8i3o1l3
- 原文链接：https://x.com/karpathy/status/1973435013875314729

## 精选理由

Karpathy解读Sutton对LLM的批判，提出「召唤幽灵」vs「构建动物」的深刻比喻，反思AI发展路径

## AI 摘要

Sutton（《The Bitter Lesson》作者）在播客中质疑 LLM 并非真正的"苦涩的教训"产物——它们依赖有限的人类数据且充满偏见。他主张 AI 应像动物一样通过 RL 与世界动态交互，而非模仿人类文本。作者认同 LLM 确实充斥人工干预，但认为预训练是应对冷启动的实用"进化替代方案"，纯 RL 在现实世界难以行得通。

## 正文

终于有机会听完了和Sutton的这期播客，既有趣又引人发笑。

作为背景，Sutton的《苦涩的教训》在顶尖大语言模型圈子里几乎成了圣经般的文本。研究人员经常讨论并质疑某个方法或想法是否足够"苦涩地受训"（意思是设计成能自动从增加计算中获益），以此作为判断它是否可行或是否值得尝试的指标。其隐含假设是，大语言模型当然高度"苦涩地受训"，看看大语言模型的缩放定律就知道了：如果你把计算量放在x轴上，各种指标就会向右上升。所以有趣的是，这篇文章的作者Sutton本人并不确定大语言模型是否真的"苦涩地受训"。它们是在本质上属于人类数据的巨大数据集上训练的，这些数据既（1）由人类生成，又（2）是有限的。数据用完了怎么办？如何防止人类偏见？所以你看，那些"苦涩地受训"的大语言模型研究者被《苦涩的教训》的作者给驳倒了——真够惨的！

从某种意义上说，Dwarkesh（他在播客中代表了大语言模型研究者的观点）和Sutton之间有些话不投机，因为Sutton设想的是截然不同的架构，而大语言模型违背了他的许多原则。他自称“古典主义者”，并引用了Alan Turing最初提出的“儿童机器”概念——一种能够通过与世界动态互动、从经验中学习的系统。没有模仿互联网网页的庞大预训练阶段。也没有监督微调，他指出这在动物王国中是不存在的（这是一个微妙但Sutton在强意义上是对的：动物当然可以观察示范，但它们的行为并不会被其他动物直接强制/“远程操控”）。他提出的另一个重要观点是，即使你仅仅把预训练当作强化学习微调前的先验初始化步骤，Sutton也认为这种方法沾染了人类偏见，从根本上偏离了方向，有点像AlphaZero（从未见过人类围棋棋谱）击败AlphaGo（从人类棋局初始化）那样。在Sutton的世界观里，所有的一切都是通过与世界的互动来进行的强化学习，其中奖励函数部分取决于环境，但也由内在动机驱动，例如“乐趣”、“好奇心”，以及与你世界模型中预测质量相关的因素。而且智能体在测试时默认始终在学习，而不是一次性训练好然后部署后就不再变化。总体而言，Sutton更关心我们与动物王国之间的共同点，而非差异。“如果我们理解了松鼠，那我们就差不多完成了。”

至于我的看法……

首先我要说，我认为 Sutton 是这期播客的优秀嘉宾，而且我很高兴 AI 领域保持着思想的多样性，并非所有人都在利用 LLM 的下一次局部迭代。AI 已经经历了太多次主流方法的离散式转变，不能失去这种多样性。同时我也认为，他对 LLM 不够“苦涩教训化”的批评并不恰当。前沿大语言模型如今是高度复杂的人造产物，在各个环节都掺入了大量人为因素——基础（预训练数据）全部是人类文本，微调数据是经过人工筛选的，强化学习环境的混合方案也由人类工程师调校。我们实际上并没有一个真正干净、纯粹“苦涩教训化”的、可以扔到世上让它仅靠经验自主学习的“转动曲柄”式算法。

这样的算法真的存在吗？找到它当然会是一个巨大的 AI 突破。人们通常举出两个"实例证明"来论证这种事情是可能的。第一个例子是 AlphaZero 的成功，它在完全没有任何人类监督的情况下，从零开始学会了下围棋。但围棋显然是一个极其简单、封闭的环境，很难想象在混乱的现实世界中能找到类似的表述。我喜欢围棋，但从算法和范畴来看，它本质上就是井字棋的一个更难版本。第二个例子是动物，比如松鼠。而在这里，我个人也相当犹豫它是否合适，因为动物是通过一种非常不同的计算过程、在不同于我们行业实际可用的约束条件下产生的。动物的大脑远非它们在出生时看起来那样是一块白板。首先，很多通常被归为"学习"的东西，在我看来更多的是"成熟"。其次，即使那些明显是"学习"而非成熟的内容，也更多的是在一个本就强大且预先存在的东西之上进行"微调"。举个例子：小斑马出生后几十秒内，就能在稀树草原上奔跑并跟着它的母亲。这是一项高度复杂的感知运动任务，在我看来绝无可能从零开始、白板式地完成。动物的大脑及其内部的数十亿参数，在其 DNA 的 ATCG 编码中拥有强大的初始化，通过进化过程中的"外循环"优化训练而成。如果小斑马像强化学习策略在初始化时那样随机抽搐肌肉，它根本跑不了多远。同样，我们的 AI 如今也拥有数十亿参数的神经网络。这些参数需要它们自身丰富、高信息密度的监督信号。我们不会重新运行进化过程。但我们有海量的互联网文档。是的，这基本上是动物界几乎不存在的监督学习。但这是实际上收集足够多软约束来覆盖数十亿参数的一种方式，试图让你达到一个不再从零开始的起点。简而言之：预训练就是我们的拙劣版进化。它是冷启动问题的一种候选解决方案，随后再在看起来更正确的任务上进行微调，例如在强化学习框架内——正如如今最前沿的大语言模型实验室普遍所做的那样。

我仍然认为从动物身上汲取灵感是值得的。我认为大语言模型智能体在算法上还缺少几个强大的思路，这些思路仍然可以从动物智能中借鉴。而且我仍然认为痛苦的教训是正确的，但我更将其视为一种柏拉图式的追求目标，在我们现实世界中、从实际角度来说，不一定非要完全达到。我说这两种观点时都有百分之十几的不确定性，并且对那些持不同意见的人的工作表示鼓励，尤其是那些在痛苦的教训方面更有野心的人。

这就把我们带到了当下的处境。直白地说，今天的前沿大语言模型研究不是在建造动物。而是在召唤幽灵。你可以把幽灵理解为在可能的智能空间中一种根本不同的存在。它们被人类所混杂，被人类彻底工程化。它们是不完美的复制品，是对人类文献的一种统计蒸馏，再加上一些点缀。它们并不是柏拉图式地信奉痛苦的教训，但或许在"实际意义上"信奉痛苦的教训——至少相较于之前很多工作而言是如此。在我看来，随着时间推移，我们有可能进一步将我们的幽灵向动物的方向不断微调；这并不像是一种根本性的不相容，而更像是智能空间中的初始化问题。但也有可能它们会进一步分化，最终永久性地不同，不像动物，但仍然极为有用，并能真正改变世界。有可能幽灵之于动物，就如同飞机之于鸟类。

总之，概括来说，从可操作的角度看，我认为这一期播客是 Sutton 对前沿大语言模型研究者们一次扎实的"实话实说"，这些研究者们可能过于偏向 exploit 模式了。很可能我们对痛苦的教训信奉得还不够，除了穷尽式的基准构建和刷榜之外，还有很大可能存在更强大的思路和范式。而动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋权、多智能体自博弈、文化。发挥你的想象力吧。

### 引用推文

> Dwarkesh Patel：.@RichardSSutton, father of reinforcement learning, doesn't think LLMs are bitter-lesson-pilled. My steel man of Richard's position: we need some new architectu...