# Grant Sanderson 谈 AI 与数学的未来

- 来源：Dwarkesh Patel：Podcast & Blog（RSS）
- 作者：Dwarkesh Patel
- 发布时间：2026-06-30 23:53
- AIHOT 分数：61
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmr0vkch300f5slate2n251dm
- 原文链接：https://www.dwarkesh.com/p/grant-sanderson-2

## 精选理由

这次对谈没有停留在AI刷数学题的喜报上，而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么，数学家未来的角色会是什么。

## AI 摘要

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出，AI 在 IMO 获金牌并不等于 AGI，只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题，仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系，以及现实经济任务难以套用强化学习环境等话题。

## 正文

Dwarkesh 播客

订阅 · 登录

播放速度

1×

字幕

英语

分享帖子

分享当前时间点的帖子

并且现在正在做一个新项目

记录人工智能在数学领域取得的进展

从 0:00 开始分享

/

1:33:39

文字记录

发言人 3

今天和我聊天的是 Grant Sanderson，他运营着 Blue and Brown 频道，现在正在做一个新项目，记录人工智能在数学领域取得的进展。我想和你聊聊这个，因为人工智能在数学领域取得的进步比其他任何领域都快。

所以，无论这里正在发生什么，无论我们看到人工智能进步发生或不发生什么，都能告诉我们，随着人工智能变得越来越好，世界其他领域将会发生什么。所以我想从三年前我第一次采访你时问你的这个问题开始。我当时问你，

一旦我们拥有人工智能能够在国际数学奥林匹克中获得金牌，那难道不就是 AGI 吗？考虑到这些问题的难度，这不就意味着它可以做任何人类能做的事吗？当时你有一个答案，事后看来非常明智且正确，大致是：

这会是另一个基准测试，就像它们正在通过的所有其他基准测试一样。显然，从那以后人工智能在整体上变得更好了，但当这件事发生时，并不会有什么顿悟时刻。首先，我很好奇你对此有什么样的经验法则，来解释为什么事实证明确实如此。

其次，我很好奇你认为这种“狭窄性”还能持续多久。到人工智能解决百万美元悬赏问题时，你认为是否仍然有可能存在大量人类正在做、而人工智能在经济中仍然无法自动化的工作？

Grant Sanderson——人工智能与数学的未来

数学将是我们最先看到超级智能的领域。那会是什么样子？

Dwarkesh Patel

2026年6月30日

文字记录

和 Grant 聊天总是非常愉快。

人工智能在数学领域的进步远比其他领域快。因此，数学正在非常具体地向我们展示，人工智能在其他领域的进步将会是什么样子。即使在数学内部，也存在着参差不齐的图景。那是什么样的？

数学史上那些最重要的概念性突破，其本质是什么？它们与当前 AI 所能做到的事情有多大不同？

AI（整体而言）是增加还是减少了人类对该领域的理解？

如果让 AI 系统性地尝试连接文献中已有的想法，这其中蕴藏着多大的潜在空间？

对于有志于成为数学家、程序员，以及其他对正在被 AI 深度变革的领域充满热情的学生，Grant 有什么建议？

可在 YouTube 观看；在 Apple Podcasts 或 Spotify 收听。

赞助商

Gemini 3.5 Live Translate 正是我上次去中国时希望能有的工具。它能检测超过 70 种语言，并近乎实时地翻译……同时保留你原有的语调和抑扬顿挫。如果你正在构建一个需要实时翻译的应用，不妨看看 Gemini 3.5 Live Translate。立即在 ai.studio/live 开始使用。

Cursor 的工具框架让我能在播客中为各类任务使用模型。例如，Cursor 能帮我剪掉每期节目中的广告，以便我发布到 Bilibili。它还能帮我准备采访——我有一个装满书籍和论文的仓库，Cursor 可以从中检索出与任何给定问题完全匹配的文件。亲自试试 Cursor，请访问 cursor.com/dwarkesh。

Jane Street 赞助了 3Blue1Brown，因此 Grant 有大量时间与 Jane Street 的成员相处。他实际上刚刚录制了一段与其中几位成员的访谈。当我们坐下来录制这一集时，他跟我分享了一些学到的内容，比如 Jane Street 如何保持其角色定义的模糊性，以确保员工持续学习和成长。请前往 3b1b.co/janestreet 查看 Grant 的完整访谈。

时间戳

(00:00:00) – AI 正在发现新的证明。这算 AGI 吗？

(00:11:32) – 概念性突破的验证循环可能长达一个世纪

(00:26:12) – 我们能理解 AI 对黎曼猜想的证明吗？

(00:38:08) – AI 能否找到不同领域之间隐藏的桥梁？

(00:53:48) – 为什么现实世界的任务不适合强化学习环境

(01:07:07) – 好的写作需要 AI 仍然缺乏的心理理论

(01:16:02) – 为什么学习仍然依赖于人类的策展

文字记录

00:00:00 – 人工智能正在发现新的证明。那算通用人工智能（AGI）吗？

Dwarkesh Patel

今天，我与 Grant Sanderson 聊天，他运营着 3Blue1Brown 频道，目前正在做一个新项目，记录人工智能在数学领域取得的进展。我想和你聊这个话题，因为人工智能在数学领域取得的进步比其他任何领域都快。无论这里正在发生什么，无论我们看到的人工智能进展是快是慢，都将告诉我们：随着 AI 越来越强，世界其他领域会发生什么。

我想先聊聊三年前我第一次采访你时问过的问题。我当时问你：一旦 AI 能拿到国际数学奥赛金牌，那不就是 AGI 吗？考虑到这些题目的难度，它难道不应该能完成人类能做的任何事情吗？

你当时有个回答，回过头来看，显得非常明智且正确。你说那将会是又一个基准测试，就像 AI 正在通过的所有其他基准测试一样。显然，从那以后 AI 在总体上变得更好了，但当那一刻来临时，并不会有什么“顿悟”时刻。

首先，我很好奇你当时是如何判断出这个结果会成立的。其次，我想知道你认为这种“狭隘性”还能持续多久。等到 AI 解决了一个千禧年大奖难题时，你认为世界上是否仍有可能存在大量人类在做、而 AI 在经济中尚无法自动化的任务？

Grant Sanderson

这是个有趣的问题，因为在不知道答案长什么样之前很难回答。以 IMO 为例，你三年前那个问题的核心在于：这些题目的有些解法似乎真的需要创造力。出题人试图设计出那些不容易通过训练来掌握的内容。

IMO 的一个不为人知的秘密是：其实很多题确实可以通过训练来准备。正如你所说，整个 AI 与数学项目之所以引人注目，原因之一就是 AI 的能力边界像尖峰一样凸起，而数学恰好就处在一个尖峰上。

但这种陡峭性呈现出分形特征，因为当你放大数学内部的特定进展时，有些事项比其他事项容易得多。我们只需想想国际数学奥林匹克竞赛（IMO）——这在当下已是旧闻了。距离它们真正表现出色已经过去两年。如果不是因为以下原因，它们在2024年本应获得金牌。它们非常厉害。基本上直接硬解了几何题。IMO有四大类问题：几何、数论、代数和组合数学。自2024年起，它只需十九秒就能解决几何题，因为它是暴力求解器。

一个不为人知的秘密是，对学生而言，也存在一种暴力求解的方法。组合数学是难以预测的变量：题目更富趣味性、更像谜题。那一年的考试中有两道组合数学题，但并非总是如此。四个类别共六道题，所以哪一类会出两道题是随机的。如果几何题更多一些，它们那年就能拿到金牌了。

但它在那些组合数学题上表现不佳。那些试图为人类坚守最后数学阵地的人可能会说，这类题目需要更多创造力。即便如此，你提问的精神——如果它们能解出千禧年大奖难题，那是否也能大量服务于白领工作？——意味着，无论我们现在与那个目标之间的限制因素是什么，它与提升白领工作水平的限制因素是相同的。

我们可以描绘几种不同的情形。如果聚焦于黎曼猜想，解决它会是怎样的情景？这些东西在特定知识领域极其擅长，掌握得非常深入，然后又懂得另一个领域，再一个领域。你曾指出过这一点。拥有这种超人类广度、精通所有领域，却仍未能找到连接它们的闪电般灵感，这着实怪异。

我认为我们开始看到它正在其擅长的领域之间建立联系的迹象。我确信我们会讨论这个问题。如果黎曼猜想的解的本质是这样的，那么我觉得这与做好白领工作所需的能力是截然不同的。

而且有理由相信这可能是该解的本质。不知道你是否了解休·蒙哥马利和弗里曼·戴森在高等研究院的那个故事。这是个题外话，但很有趣。我不确定是否是在午餐期间或类似场合，但故事是这样的：一位数论学家正试图理解黎曼 ζ 函数零点对之间的统计相关性。

黎曼猜想的核心在于所有这些零点是否都位于一条直线上。他想到一个可以量化的提问方式，并写出了一个公式。这个公式看起来像某种正弦平方的倒数。物理学家弗里曼·戴森说：“我知道这个表达式。这个表达式出现在随机厄米矩阵的特征值研究中”，而这正是研究原子核能级时会遇到的东西。

这两个看似不同的事物在统计上具有相同性，这一发现促使人们探索随机矩阵理论中是否可能有一些方面与黎曼 ζ 函数相关。至于这是否能有成果，我认为仍是一个悬而未决的问题。但将两个不同领域联结起来——如果黎曼猜想的解竟然是将这类思路推得更远——那么这正是你期待大语言模型擅长数学的那种特征。它们精通量子物理，也精通解析数论。它们应该能够看到这种相似性，而无需蒙哥马利和戴森碰巧共进午餐并聊到此事。这与白领工作完全不同。如果你觉得很难把 AI 当编辑用，那并不是因为它们什么都知道而你只需要它们找到那道划破长空的闪电。

另一种可能性会是……用什么样的类比才恰当呢？或许可以想想费马大定理——从费马提出这个问题的那一刻，到最终解决方案本身的模样之间，解决方案最终涉及了如此庞大的数学工具。这个问题的美在于你可以用极其简单的方式表述它。你问的是 xⁿ + yⁿ = zⁿ。当 n 大于 3 时，是否存在整数解？

你可能会觉得它应该有一种初等数论的方法来解决，但就我们所知，就是没有。而实际解决方案——也许存在更简单的路径，但这或许就是它不得不采用的样子。它需要一整套极其复杂的思想，这些思想建立在围绕椭圆曲线的数百年工作之上。然后还有另一座思想的高山，围绕着所谓的模形式。这两座高山都必须被建造起来，你才能提出那个连接它们的关键问题。

如果黎曼假设的解决方案需要建造一座新的高山——那就是一种技能：能够提出正确的新想法——这感觉上和当前这些智能体所展现的特质截然不同。当然，这并非你雇佣视频编辑所需要的能力。但如果它能够建造出正确的新理论的高山，将我们思考某个主题的方式结晶化，那这种智能水平高到令人惊讶的程度，以至于它不可能不渗透到经济的其他方面，而不仅仅是数学本身的造山运动。

德瓦凯什·帕特尔

或者至少，即使它无法真正完成白领人类能做的每一件事，它也会产生变革性的影响——就像在国际数学奥林匹克竞赛中获得金牌并没有对世界产生变革性影响那样。

首先，我想指出我完全是在移动目标。当我在两三年之前采访 Dario 时，我就问过他这个问题：为什么他们没能利用自己庞大的知识将不同的想法联系起来，从而以此种方式得出新的发现。这种事情似乎就连一个智力中等的人，只要掌握了这么多信息，也能从“这种药导致偏头痛，另一种药有这种效果，也许同一种药能同时治疗两者”这样的事实中，得出一个医学诊断。

从外部视角来看，数学似乎显然是一个领域——找到“单位距离问题”猜想的反例就是这类事情的一个例子。所以这完全是在移动目标。但接下来我们可以问：下一个基准是什么？既然 AI 已经能做到我们本以为它们应该能做的事情，那么下一个真正令人印象深刻的目标会是什么？

这里有几个候选想法。一个是提出有趣的问题本身，另一个是创造出能开创或统一整个领域的新型对象或概念化方式。关于第一个：目前之所以有这些“千禧年大奖难题”，是因为数学家们注意到了它们。黎曼之所以提出黎曼 ζ 函数这个概念，是因为他认为这个函数的零点与质数密度存在某种联系。

弄清楚“为什么我们一开始就觉得这是一个值得研究的有趣问题”“为什么我们要构建这个对象并试图回答关于它的问题——尤其是回答关于它的这个特定问题”——这似乎才是下一个基准。

Grant Sanderson

你举了两个很好的例子。对于任何对“单位距离猜想”感到好奇的人，有一个名为 Polylog 的数学频道制作了非常棒的视频来讲解它。

所有这些讨论都促使人们反思做数学的过程。他们会想：“哦，这东西能做出这么厉害的事。这对我们意味着什么？”那个视频里有一个人特别强调了这句话：“好的数学家证明定理，伟大的数学家提出猜想，而最伟大的数学家创造定义。”这跟你刚才的框架几乎完全吻合。我们需要的是那个能生成猜想、进而能生成定义的数学工具。这才是顶尖数学家做的事。

我不太清楚具体要怎么把它做成一个基准测试。通常我想到“基准测试”这个词时，指的是一个球门柱一样的东西。球要么穿过球门，要么没有。你可以明确地说：“好了，这个完成了。”这样做一方面是为了能实现类似RLVR（基于强化学习的验证推理）的目标，另一方面也是为了保证你在回答问题时没有移动球门柱。OpenAI可以拿“证伪单位距离猜想”做新闻标题，因为那是一个清晰、明确的事情——它做到了。但想象一下，如果GPT-5.4想出一个非常好的猜想，你要怎么拟标题？“我们保证，所有人都觉得这是个好猜想。”这种话听起来就完全不是那么回事了。

但这也许并不否定那才是我们应该思考的正确方向。如果它最终真的变成一种基准测试的样子——我们通过一个分数来判定它是否通过，因为我们可以量化一个猜想的优劣程度——那我反而会感到惊讶。要达成这个目标，更可能的情况是，你会感觉到数学家们在谈论与AI合作的实用性时，语气发生了转变。

你提到的这个系列节目，目前完全还没制作，可能再过几个月也不会出来。它的形式是采访很多数学家。有意思的是，我们其实一年多前就开始做这件事了，而观察他们谈论AI的语气从2025年年中到我们现在所处的2026年之间发生的微妙转变，是件很有趣的事。在现实世界里，这只是一段非常短的时间；但在AI的世界里，这已经是好几个世代了。我们正好能在这几个世代里目睹这种语气的转变。

我认为衡量猜想生成能力的方式将更加主观，基于那种语气上的转变。数学家们会表示，他们不仅用模型来解决自己的问题，而且在退后一步、思考自己的研究领域究竟应该是什么的时候，与某个模型的对话确实对此有实际帮助。我不太可能看到它以“又一个基准被攻克”这样的头条新闻形式出现。

00:11:32 – 概念突破的验证循环可能长达一个世纪

Dwarkesh Patel

这非常有趣。你无法为其设立基准的那些东西，至少在当前的范式下，也是不容易针对其进行训练的。基准和训练环境之间其实没有根本区别。

人们很容易提出一种二分法，说“AI 无法做某件事背后有深刻的原因”，但随后就会发现，你只是思考方式错了，而实际上 AI 很快就能做到。不过我要提出——

Grant Sanderson

你反正还是要提出几个的。

Dwarkesh Patel

很可能在相对近期内，我们会找到方法训练 AI 去做这类事情。但这似乎必须不同于当前的 RLVR 训练。

我好奇的事情——也是我认为在很大程度上推动数学乃至整个科学取得重大进步的事情——是提出一种看待问题的新方式，或者一种理解世界的新方式，这种方式能统一不同领域，催生全新的领域，并解决我们最初甚至没有试图解决的问题。爱因斯坦思考广义相对论的原因，并非他想解释光为什么会弯曲或黑洞为什么存在。这些现象他最初根本不需要解释。

在数学领域，作为一个甚至不知道自己在这里谈论什么的完全外行，似乎有些方法能够证明某个具体问题，并推动形成一种新的概念化——这种概念化会催生一个全新的领域、一种全新的思维方式，并且极具生产力——而另一些方法则不能。我很好奇，想听听你谈谈伽罗瓦提出群论，以及他在五次方程根式不可解问题上与大他早几年提出不同证法但未能创立群论的阿贝尔之间的区别。

如果你想对群论是否是一个有趣的概念做一个验证循环——即这个理论到底有没有用，或者为什么这个证明更好？——那么这个验证循环可能长达一百年。它涉及到密码学的诞生、物理学的进步，以及群论思想对于理解物理学中对称性的意义。关于这个概念最初为何是一个富有成果的概念，存在着一个长达百年的验证循环。

Grant Sanderson

你说到了我的点子上，因为我曾有一个关于伽罗瓦的项目，本打算在2022年做，后来搁置了，但我用了一整年的时间深入思考他所做的工作。我有可能不小心在具体细节上讲得太久，你随时可以打断我。

这对你的观点来说是一个完美的例子，因为描述为什么这是一个有价值的洞察，并不能从当下的实用性出发。当然，如果你考虑的是 RLVR 环境，这将会非常困难。但值得注意的是，即使有当时的人类验证者，人们也花了相当长的时间才认识到它的价值。

对于爱因斯坦和广义相对论，人们当时就能立刻觉得这是一个好理论。而伽罗瓦理论之所以成为一个如此有趣的例子，是因为你确实有一个长达百年的思想片段，它在许多不同人的头脑中流动，最终才沉淀为数学界公认的好东西。我们再稍微回溯一下……你需要了解这个问题的背景吗？我们都在学校里学过二次公式。

Dwarkesh Patel

我以为你要说我们在学校都学过群论，但我错过了那堂课。

Grant Sanderson

我们都学过群论……不对，是二次公式。这个公式在当时是已知的。从某种意义上说，希腊人能解二次方程，但他们其实并没有用代数方式来表达。真正把这个公式写下来的是阿拉伯人。

有一个关于意大利数学家对决的精彩故事——不是真实的决斗，而是智力挑战——他们秘密地找到了三次方程的公式，随后又很快找到了四次多项式的公式。于是，数学家面临一个自然悬而未决的问题：你能找到一个解五次方程的公式吗？

四次公式是个庞然大物。把它完整写下来会非常疯狂。通常你不会完整写出它，而是把它拆解成一系列步骤。你可能会认为这些东西的复杂度会呈指数级增长。因此在几百年里，没有人真正回答过那个问题。

通常我们认为阿贝尔是第一个证明它的人。他是挪威一位早熟且年轻的数学家。他证明了这是完全不可能的——并不是说你能找到一个五次公式。他一开始以为自己找到了一个，但后来证明那是不可行的。

不过我认为真正的功劳，得往回推一点，谈谈拉格朗日。他针对这个问题提出了正确的提问方式。我会用非常粗略的方式来讲。他在研究这个问题时意识到，能够解这些多项式与理解某些代数表达式的对称性密切相关。

如果我写下 a + b + c + d，只是把四个变量相加，然后对它们进行置换，表达式的值不会改变。而如果我写下 a + b × c + d，某些置换不改变它，但另一些会改变。他有一个非常精妙的洞见：如果你能找到含有四个自由变量、但所有置换只产生三个不同数值的表达式，这就会与能够将四次方程降阶为三次方程产生意想不到的联系。

他开始思考能否找到五次多项式这个问题，想的是能不能扩展那种方法。要扩展那个方法，就需要有一个包含五个自由变量的表达式，使得当你将这五个变量在所有5的阶乘种排列中进行重排时，它只取四个或更少的数值。你可以把这个放在谜题书里，也可以放在一个十二岁孩子都能参与的脑筋急转弯里。很快就会发现自己觉得那是一项不可能完成的任务。

拉格朗日坐在那里说：“这里有一个解决五次多项式问题的策略。但看起来可能行不通，至少用这个策略不行。”但那是历史上第一次，人们凭直觉感到某种关于对称性的问题才是研究这些多项式的正确途径。在他心里，这仅仅是一种途径。当时尚未发现两者之间其实存在更紧密的联系。同时，也许与其寻找那个公式，我们更应该问相反的问题：你能证明它不可能吗？他算是播下了这颗种子。

大约五十年后，阿贝尔肯定读过拉格朗日的著作并深受影响。我们知道伽罗瓦在爱上数学时也极为推崇拉格朗日。很难想象这两位年轻的天才能够围绕那个问题得出相当相似的见解，不是源于拉格朗日的启发。

但针对你提出的问题——你是否能验证那是个好主意——拉格朗日并没有得出任何结果。他没有解决那个问题，所以并非依据某个解答才知道该问什么问题。他只是提出了那个问题。这件事本身就有某种内在的趣味性。而且，在当时它对数学来说也不是很重要。大多数人更感兴趣的是它在物理学中的应用。这几乎算是一种边缘的、娱乐性的、业余爱好的东西。

阿贝尔起初研究的是五次方程相关的问题，但后来有人建议他把更多精力放在椭圆函数上，因此他在英年早逝之前，主要工作都集中在那方面。他二十六岁时死于肺结核。随后，伽罗瓦将这两个思想朝正确方向推进，真正理解了抽象的本质。他在狱中写下了一篇非常精彩的文章。关于他的生平，我们可以聊很多，相当离奇。他那时还是个少年，身陷囹圄，曾试图提交自己的数学论文，却都被拒稿了。

所以再回到可验证奖励这个想法：当时的学术界就是验证者函数，它拒绝了他写的东西。老实说，那些内容并不连贯，不是一个完整的证明。他对这个理论究竟是什么也没有给出清晰的想法。他只是一个初出茅庐的年轻数学家，还在摸索方向。当时的可验证奖励就是“不行”。但他有一种直觉，觉得这里面有东西。

于是他写下了一篇关于数学本质的论述，认为数学会随着时间发生转变。他谈到代数的诞生，谈到人们从仅仅用数字思考，发展到对纯代数表达式有了一定的流畅运用能力——不再拘泥于去解释那些表达式。他有一种直觉，觉得似乎还有另一个抽象层次有待探索：不是去思考公式本身，而是去思考那些公式背后蕴含的对称性。不过这仍然是一个相当模糊的理论。

如果你想说可验证奖励在于他解决了一个别人没解决的问题——可阿贝尔已经证明了五次方程是不可解的。那么伽罗瓦到底在做什么？原则上，伽罗瓦理论能让你针对一个特定的多项式，给出规则，判断这个特定多项式是否有可以写出来的根。例如，对于 x⁵ - 1，你知道一个解是 1。或者对于 x⁵ - 2，你可以写出 2 的五次方根。

所以问题并不是你写不出每个五次多项式的解，而是能否找到某个特定的五次多项式，证明你无法用根式写出它的解？而且他当时甚至也没有完全解决这个问题。他并没有针对某个具体例子证明自己做不到。就连描述他到底解决了什么问题，本身都非常棘手。

然后他就去世了。这是一个非常浪漫的故事：他参与了一场决斗。关于他在决斗前夜把所有想法写下来的传说很多，但实际上，在那之前他已经五次尝试发表自己的成果了。

Dwarkesh Patel

研究五次方程似乎对你的健康没什么好处。

Grant Sanderson

非常不好。如果你是个年轻的天才，别去碰五次方程。他让他的兄弟和挚友把自己的笔记寄给高斯，寄给当时重要的数学家，因为他觉得那些笔记里有真东西。即便如此，也没有立刻引起重视。他的兄弟和朋友努力传播，但直到二十年之后，Liouville 才看到这些笔记，觉得里面可能有点名堂，于是试图梳理并理解伽罗瓦到底想表达什么。又过了大约二十年，Jordan 才真正整理出现代群论式的处理，并将其归功于伽罗瓦。

你很容易想象历史会走向不同的方向——这些想法本可能从数学的其他分支涌现出来，而伽罗瓦要不是性格如此张扬，也可能会被历史遗忘。但从 Lagrange 隐约觉得根的对称性可能是正确方向，到一切都看起来像现代群论，这中间跨度很长。很多时间里，这些成果甚至通不过审稿人的验证认可。它们落到某个人桌上，对方说：“我不太确定这里面有没有东西。” 必须要有这么一个人识别出它的价值。

即便到了那个阶段，它也并不是真正在解决实际问题。你提到了密码学、物理学之类的东西。你得一直等到二十世纪，盖尔曼才开始思考：某些群的分解方式，其本质可能与粒子由什么构成之间有关系。他纯粹基于一个群论问题就预言了夸克的存在。这是群论最有趣的应用之一：就连预言夸克的存在，本质上也是一个群论问题。而拉格朗日所处的时代，距离出现这样的成果已经过去太久了。

所以你必须问自己：衡量进步的方式，不是基于解决某个问题，而是如何捕捉伽罗瓦脑海中的那种直觉——当他说“我认为这里有些东西”时，那是什么？拉格朗日说“我认为这是思考这个问题的正确方式”时，那又是什么？刘维尔说“这个早已去世的年轻人留下这些散乱笔记，里面可能有些门道”时，又是什么？这实在太难以捉摸了。

我正在制作的另一系列视频是关于“压缩即智能”这个想法的。虽然这并不是我切入的角度，但确实有这样一种感觉：越简洁、越具有预测能力的表达，就显得越有智能。所以我在想，是否可以在某种程度上给出一种可验证的奖励——不仅仅取决于你是否解决了问题或解决了什么问题，还取决于完成它所需的概念的简洁性。

回到黎曼猜想的解法问题：如果AI解决了它，那会是什么样子？我认为第三种可能是，它只是直接更努力地算。同理，费马大定理或许也能有一个初等证明，但洋洋洒洒写成数千页，让人难以理解。而更干净的视角是通过椭圆曲线之类的东西去理解它。也许黎曼猜想会有一个长达千页的证明，没人能从中真正得到启发；而人们真正想要的，是这些思想简洁、凝练的版本，这样才能为人类所理解。

也许你会把柯尔莫哥洛夫复杂度引入到你试图量化“优雅”定义的尝试中。我认为这并不容易，但我确实认为，要奖励那种伽罗瓦式的直觉，而不是仅仅奖励你是否解出了一道题，这是必须做的一件事。

Dwarkesh Patel

为科学想出一套启发式方法非常困难。但很明显，人类一直在以某种方式做这件事，而且显然，AI 最终也会做到。

Grant Sanderson

这不仅仅关乎可验证的奖励，更重要的是，最终目标是理解——人类的理解。即使你拥有某个数学定理上千页的证明，或者某个宏伟的新物理理论，目标依然是理解。

也许如果目标是预测能力，你可以让自动化工程师去造火箭，我们完全不知道它们的工作原理，却能抵达星际之间。但会有很多人想要理解。你仍然需要某种“简洁函数”，它能将复杂的思维方式提炼成正确的那个——就像牛顿的万有引力定律那样。你仍然需要训练 AI 具备这种能力，并找到压缩后的表征。

00:26:12 – 我们能否理解 AI 对黎曼猜想的证明？

Dwarkesh Patel

人们尤其对数学有这样一种担忧：AI 会证明黎曼猜想，而我们对数学的理解却不会因此有任何提升。关于这一点，我有几个问题。第一个问题是，这是否是你应该预料到的事情。

当人类在处理一个重大问题的时候，之所以会提出通用的、自然的对象和子目标，难道不正是因为这在处理复杂且重要的问题时很有用吗？从理论上讲，与仅仅提出与思考该问题相关的自然抽象相比，这会不会是一种更简单的解决黎曼猜想的方式？

其次，从经验来看，当 AI 如今在解决难题取得进展时，我们观察到的情况是这样的吗？当 AI 针对单位距离猜想提出那个反例时，你可以直接阅读它的思维链。我读不懂，因为我对数学一窍不通，但在其他数学家看来，似乎是可以理解的。它运用了已知的数学概念，并用自然语言证明了它们之间的关系。因此，它加速了我们对这个对象与这个猜想之间联系的理解。

从经验上看，这是我们应该担心的事情吗？

格兰特·桑德森

我认为这取决于本质……如果我们分解出解决黎曼猜想的三种可能方式……今年另一个大问题是关于所谓本原集的某个编号为 1196 的 Erdős 问题。它具备那种从看似无关领域引入一个想法的特性。一旦你把基本想法呈现给一位数学家……你会说：“如果我们尝试马尔可夫链过程，不是自上而下，而是用概率的方式自下而上地证明这个东西，并运用冯·曼戈尔特函数，会怎样？”

如果你对行内人士这么说，他们就懂得如何继续推进。你有一个非常小的想法，它呈现出一个领域的专业知识和另一个领域的专业知识，并在两者之间划出一道闪电般的连接。这些连接将非常易于人类解读，因为你只需要展示这些连接的起点和终点。

如果其本质是建造一座山，那么你需要投入更多时间来理解那座新造出来的山，因为你面对的是一个新的线索，而不仅仅是两者之间的一道闪电。而如果进步的实质只是单纯的埋头苦干——一条极其漫长的推理链条，没有任何新理论——那么你就会有整个消化过程的担忧。所以我认为没有一个明确的答案。它取决于解决方案会是什么样子。

从构建“数学高峰”的角度来看，那将是非常有趣的现象。它是默认像伟大数学家提出新理论那样高度可被人类理解的吗？还是说，它正在建起一座陌生的、异质的高峰，需要我们重新处理所接触的那类抽象概念？

最接近的例子是试图解决abc猜想。我们也许不该深入讨论那个，但它很可能并不是一个正确的解答。简单来说，这是日本那位原本备受尊敬的数学家提出的一套全新的思考方式。数学家们花了很长时间才勉强理解他在说什么，但这套东西给人的感觉像是异质的数学片段——是在进行理论构建，而不仅仅是长长的推理链条。他将其称之为“宇宙际几何”。

最大的担忧是，如果某个人工智能也这么干，然后就像abc猜想那样，人们花了好几年时间去攀登那座山峰，结果发现：“该死，这根本不对。”如果它最终是错的，但看起来却非常正确，那会很糟糕。即使它是正确的，攀登一座新的山峰也需要付出巨大的努力。

德瓦凯什·帕特尔

如果我们最终陷入那种局面，大卫·贝西斯有一篇非常精彩的博文，标题是《定理经济的衰落》。他在文中谈到，历史上——就像你刚才说的——数学就是在提出各种定义和问题，然后围绕它们来证明定理。定理证明这部分获得了所有的声誉，但它实际上寄生在“提出定义”这项工作之上。

历史上，这在功劳分配方面并不是问题，因为如果你提出了一个定义，你很可能也会是那个提出定理的人。但现在我们面临的情况是，如果真正有价值的工作在于提出洞见，而人工智能将后续的部分自动化了……

设想这样一个场景：某个AI针对世界上许多重要猜想，提出了像阿贝尔那样直截了当的论证，然后我们手里就有了这些证明。接下来，就由人类或未来的AI来整合这些成果。同样，我对这些论证本身没有任何实质性的理解，但我确信，如果你能接触到它，它会让你更容易思考到底发生了什么。是否存在某种更深层的方式，让我们能够理解这个证明为什么成立，从而更容易想出群论背后的那些思想？

Grant Sanderson

我认为那会带来巨大的帮助。探索新数学的过程中，大部分时间其实都是错的。你试图解决一个问题，但感觉并不像是一步一步正确地往山上走。更多时候，它像是一场随机的醉汉漫步——你做着某件事，然后发现自己错了，并且不断发现这一点。如果至少你知道，努力消化你已有的东西最终会通向一个正确的解，那就会让人感觉在进步，仅仅因为你知道它通向一个解，这种感受本身就很有意义。

在近期的数学史上，有很多例子都让人觉得，触及的范围已经超出了理解的范围——很多结论在被人理解之前很久就已经被证明了。我最喜欢的一篇论文的开头——它甚至不是研究论文，更像是一篇阐述性文章——来自一位名叫Timothy Chow的数学家，他当时试图理解一个叫作“力迫”的概念。有一个问题叫作连续统假设，它大致问的是：自然数有一个无穷大的大小，实数也有一个无穷大的大小。那么中间是否存在另一个大小？

答案既是肯定的，也是否定的。这取决于你选择的公理。它超出了我们通常公理系统的范围，这是一个很有趣的答案。但描述它的方法却非常难理解。这就是那个叫作“力迫”的东西。在这篇论文的开头，他写道：“大家都知道‘未解决的研究问题’这个概念。我想提出‘未解决的阐述问题’这个概念。”没错，我们确实证明了它，但我们并不真正知道它为什么成立。

接着，他针对那个阐述性难题提出了一个部分解决方案。你能想象我为什么喜欢那个框架——因为这正是我整个学术生涯的写照。我不做数学研究型工作。我的全部重心在于找到最清晰的理解方式，哪怕问题已被证明。证明与解释之间存在着区别，而我想你正触及这一区分的重要性。

Dwarkesh Patel

是的。那将成为主要驱动力。或者说，驱动力必须发生转变——不仅在数学领域，在其他科学领域也一样——从"证明关于世界的事实"转向"将证明整合为问题或更高层次的洞见"。

我们午餐时讨论过你最近的一场演讲，关于设计如何帮助我们理解事物。在极限情况下，概念化的想法与想法本身之间真的存在区别吗？想想狭义相对论和时空图、闵可夫斯基时空——这是我们用以说明长度收缩和时间膨胀为何存在的方式。但这就是现实本身……所以在某种意义上，阐述似乎就是解释本身。

Grant Sanderson

这里有几点很有意思。其一，真正提出新颖洞见的人与表达清晰的人之间似乎存在很强的关联性。你可能会觉得情况相反，因为大学生的经历往往是：教他们的专家并不一定是该主题的最佳讲解者——专家被自己的专业知识"宠坏了"。但至少在某些案例中，实际情况似乎是：真正提出全新思想的人——比如爱因斯坦或克劳德·香农——你读他们的论文，会发现它们非常清晰易懂。

你并不觉得这论文是写给专家看的，需要你拿着砍刀劈开荆棘才能读懂。他们是非常出色的阐述者。费曼也有这个特质——他是极好的阐述者。也许大脑中用于在研究层面提出正确新思路的那个部分，同时也具备这种擅长清晰解释的天赋。

我认为这与人工智能息息相关。我曾以为AI会变成自动化的定理证明器，而数学家的角色将转向我的工作——解释这些内容。但现在我猜测，它们实际上也会非常擅长做这件事，很可能比大多数人类更擅长解释和提炼。因此，从这些事物发展的本质来看，消化和解释正在发生的事情，很可能并不是留给数学家的工作。我们可以讨论哪些情况可能并非如此，但通常能提出解决新问题的绝妙新想法的那套东西，也同样擅长解释它。这就是我的信念发生改变的一个方面。

德瓦克什·帕特尔

你认为你最终会做什么？无论是你个人，还是人类数学界会做什么？

格兰特·桑德森

我可能会一直做我现在做的事情，直到死去。

德瓦克什·帕特尔

如果末日论者是对的，那或许出于同样的原因。

格兰特·桑德森

是啊。你给人点一堆火，他能暖和一夜。但你把一个人点着了，他这辈子都暖和了。这就是我对AI的看法。

解说者或教师的部分功能，是为某个让人好奇的事物增添清晰度。这是一方面。但另一方面更具关系性，提供动机和一种策展感。我听到过一个关于数学家最终会成为什么的有趣观点，那就是他们实际上更像艺术博物馆的策展人，而非其他任何角色。

AI解决了问题，所以艺术已经存在。它们甚至知道如何非常好地解释它。但你仍然需要有人帮你导航这个近乎无限的空间，告诉你哪些想法值得投入精力。即使AI在某种意义上比人类更擅长这件事，我认为我们始终会偏爱一个与我们有人际关系的人类，因为我们之所以会被激发兴趣，本质上是一种社会现象。

如果你有某个特定技术想要构建，那可能会有所不同。但收听这个播客的人，首先信任的是你对有趣话题的筛选。他们并不是因为你下一个话题恰好是他们事先想了解的内容才来到这里，而是信任你作为内容策展人的判断。

所以我的角色——或许也包括其他数学家的角色——实际上可能会微妙地转向那种策展方向：判断哪些想法值得深入探索。这正是我现在大部分工作所在。很多人以为制作视频的大量时间都花在视觉效果上。当然，确实如此，这并非一蹴而就。但实际上，很大一部分工作只是决定一开始什么值得说、什么值得放在那里。

我想参与其中，而且我认为我与某些人之间有信任关系，他们好奇我会选择推出什么，即使AI在这方面比我做得更好。这就好比人类音乐家始终会有一席之地：他们背后故事的社会功能，即使某个模型生成的MP3文件在客观质量上更胜一筹。我认为我的工作正在朝着这个方向发展。

00:38:08 – AI能找到领域之间隐藏的桥梁吗？

Dwarkesh Patel

我想回到之前的一个问题。既然AI已经跨过了这个门槛——这个重要的基准，即能够连接现有想法以提出新发现，或证明/证伪某个命题——我们就会说："好吧，但下一步是什么？"

Grant Sanderson

顺便说一句，在这方面还有很多工作要做。仅仅因为已经击出了几道闪电……我认为未来几年将会有一个蓬勃发展的阶段，真正实现连接。

Dwarkesh Patel

对。所以从极限角度来看，你甚至可以说——我不知道这准不准确，但有可能——很多最大的突破在某种层面上看起来就是这样。以广义相对论为例，你只是将黎曼几何与狭义相对论连接起来。因此，随着AI在连接这件事上变得越来越强，也许很多重大突破在本质上并没有质的不同。我不知道你对此有何看法。

Grant Sanderson

很多讨论都集中在问题解决和数学的那种本质上，比如攻克埃尔德什问题之类的。但我要说，并非大多数数学家会把自己的工作描述为瞄准下一个要解决的目标。你了解朗兰兹纲领吗？

德瓦克什·帕特尔

不了解。

格兰特·桑德森

与其说它是一个数学领域，不如说它是一种研究理念。费马大定理就是其中一个苗头。你有两个看似毫不相干的东西，它们之间的联系引出了解决方案。

朗兰兹是一位数学家。他有一封著名的信，大致阐述了很多这样的联系似乎很可能存在。他甚至更具体地描述了这些联系的性质，让人可以想象一张巨大的地图，这边是山谷，那边是山脉，还有一片平原。很多数学家会将自己的工作描述为试图理解这张地图上的脉络。

那里的进展，甚至不是“这里有一个具体问题，我们知道通过那个联系就能解决”。更多时候，一次又一次地，许多重大问题都是通过找到联系而被攻克的，以至于几乎是先发制人地去寻找联系。这实际上非常有趣。任何时候你遇到一位数学家，问问他们，自己的工作性质更接近朗兰兹纲领，还是瞄准某个具体问题。你会得到一种二分的结果。

人工智能成为超级连接器的可能性，感觉像是这种探索中的一个增强工具。不过，这很难衡量。这又回到了我们之前说的：你怎么给“是的，你做到了”打分？如果是攻克一个问题，你有明确的方式说“是的，你做到了”。你可以写头条新闻。你可以作为AI公司发布新闻稿说“我们做到了”。

而如果感觉那个关联是合理的，你就可以围绕它写出定理。这个领域里的论文就是这种性质。但我认为，未来五年这类模型大部分有用的进展，将需要更多“人在环中”来提出：“我们当时想建立的是哪种关联？”我猜想，未来五年这些模型带来的大部分有用进展就会是这个样子——它只是帮你填补那个关联的图景，前提是你本身就是多个领域的专家。正如你指出的，我们居然还没做到这一点，这有点令人惊讶。

我很好奇，从技术层面来看，是什么触发了那种突破。一方面，你可以在脑海中描绘一种解释：为什么一个人能在所有这些领域都成为专家，却没能建立那些关联。当推理方法就是这种自回归思维链现象时……如果你仔细想想，自回归其实是一种非常奇怪的生成方式。

你是个聪明人。想象一下我把你锁在一个盒子里，你与外界互动的唯一方式就是收到一张纸条，有人问你：“你能预测下一个是什么吗？”你预测出下一个内容，然后你的记忆被清空。你又得到另一张纸条。想象这个过程重复很多次，然后另一端输出的内容出来了。他们说：“看看你写的这篇文章。”你可能会看着它说：“这太糟糕了。这不是我会写出来的文章。”这种反复预测的过程，与你作为一名作家去构思、推敲并完成的思考方式，实在是大相径庭。

特别值得注意的是，很可能发生的情况是，你受制于你的上下文。你可能正在回答某个特定领域的问题，因此你会调用该领域周围的所有上下文。但所有实质内容将要来源的那种连接，本质上是一个极不可能发生的连接。你可以进行所有你想要的强化学习，试图以某种方式变得更好，但究竟是什么在专门提升权重并激励去建立这些极不可能的连接——当绝大多数此类连接都不是可预测的、本该出现在那里的下一个 token 时？

所以情况可能是，你只是把这种智能锁在那个黑箱里，但这是一种与之互动的奇怪方式。我好奇的是：质疑 token 生成的前提，你有没有得到过任何成果？我不认为这会像调节温度那么简单，但有没有一些方法，可以利用现有的智能水平，找到正确的方式来激发那些连接，从而解锁我们所见过的这类事情？还是说，你只是需要再多一点点智能，使得在预测的层面上，它能够预测到自己应该向另一个领域发出那道闪电般的连接？

Dwarkesh Patel

我认为更富有成效的做法是，从数据而非架构甚至损失函数的角度去推理。我们有做文本生成的扩散模型，它们所产生的东西在性质上并非全然不同。只是它们还没有被充分探索。我认为更相关的问题是：无论你采用什么架构或损失函数，它激励你产生的是什么数据？它们似乎确实在变得更好。

先别管数学。我们确实有过几个这类例子，但如果你只是看它们为什么在作为自主智能体方面变得更好了……它们处于一个环境中，在其中自回归地产生这样的步骤：“让我们退一步，对整个代码库进行一次搜索”，然后“让我们退一步，评估我的错误”——正是这种方法在起作用。

我猜，在科学或者数学的进步过程中，情况可能类似于存在前沿数学问题。数学家特意设计了这些问题，因为它们需要将两个不同领域联系起来。我猜测，有各种巧妙、部分合成的方法来制造越来越难的这类问题，这些方法要求上述那种联系——例如，通过消除假设，同时仍然要求AI得出答案——这样一来损失函数是什么就无关紧要了。真正的问题是：你能不能创造出一个激励这种能力的环境？

Grant Sanderson

感觉你应该能够做到。我当然无法说出解锁这一切的正确方法，但这会相当令人惊讶。你不觉得，如果未来三年内没有出现更多那种电光火石般的突破，会让人意外吗？

Dwarkesh Patel

我认为这是一个值得思考的重要问题。我们经常考虑单个系统有多聪明。但我们没有考虑到AI具备的优势更多源于它们其他方面的特性。因此在这个背景下，关于它们的关键事实是：我们可以将它们并行化并任意扩展规模。无论它们能力水平如何，它们并不只是数学史上某个独特天才，做出几次联系后就死于决斗。

而是将那个能力基准普遍应用于所有在该能力水平上可以解决的问题。这是数字思维天然拥有的众多优势之一，而我们对此思考不足。其他优势包括：它们可以将所有知识整合在一起——或者至少会有技术手段实现这一点——以及你可以生成具有相同知识水平的副本。这种并行化是一个非常重要的特性。

我对你的预测很好奇。即使它们没有人类数学家那么聪明，但出于公关原因，AI公司正在投入数十亿甚至数百亿美元，这意味着量变本身就会引起质变。

Grant Sanderson

这似乎朝着正确的方向。如果我们回顾一下蒙哥马利和戴森在 IAS 的那场对话，它暗示了黎曼假设（或者说黎曼 zeta 函数的零点）与随机矩阵之间存在某种联系——这感觉像是那种你可以尝试自动化的事情。你可以用多个智能体来代表所有这些领域的专业知识。我们都知道，一个研究所比一个个体更聪明。

让所有人都聚集在同一地理位置的原因，是希望那些偶然的对话能够发生。那么，如何在智能体之间设计出这种偶然性呢？这很有趣，因为你指出你可以把所有知识汇集起来，但我真正好奇的是，其中一个优势可能恰恰相反。

有时候，AI 失败是因为它陷入了糟糕的推理链，而且很难把它拉出来。所以你会说，“我重新开始吧。”人类也一样。有时候你以一种特定的方式思考某个问题，而真正需要做的就是退一步。有些故事讲的是人们花了很长时间试图证明某件事，然后某个时刻他们会说：“等等，如果我试着证明它是不可能的，或者证明相反的情况呢？”

摆脱自己的上下文束缚，以全新的思维重新开始……你可以想象将这个过程系统化，或者故意让多个不同的智能体拥有不同的上下文片段，然后尝试比较和对比它们。但我们对自己上下文并没有同样程度的操控能力。

在这个关于 AI 与数学的系列中，第一集我们将讨论它们解决 IMO 问题的时刻。我想重点关注它们失败的一个特定 IMO 题目——这也是很多非常聪明的学生都失败过的题目。陶哲轩也没能做出来。人们对这道题非常生气，因为称之为“钓鱼题”。我几乎不想剧透，因为我希望这一集的构建方式是引导观众在不知情的情况下走进来，最后发现它其实有一个简单的解法。你真的能感同身受地体会到学生解这道题时的心情。

基本上，有一种非常优雅的方式，可以基于国际数学奥林匹克竞赛题的语境，找到你直觉上认为是答案的解。这个解法的特质很有吸引力，但要证明它是最优的却很难。原因在于它并非最优。实际上，有一种近乎“无脑”的解法才是最优的。

这一点与整个 AI 故事的关联在于，对人类而言，回答那个问题的关键在于跳出你的语境。跳出你身处 IMO 的语境。跳出你被训练来解决这类竞赛数学题的方式语境。如果你只是把它当成一个随便扔给路人的脑筋急转弯，他们很可能答得很好。

有时在其他语境下的人类研究中，你也希望做到同样的事：能够刷新自己的思维，用完全不同的方式切入问题。在数字心智拥有的所有优势中，这可能正是其中之一：一种更系统化的思维刷新方式。衍生出两个智能体，一个试图证明它，另一个试图驳倒它；一个用这种方法尝试，另一个用另一种方法尝试。它们刻意拥有不同的语境。

我很好奇，如果三年后我们再聊这个话题，会有多少登上头条的重大成果具备这种特质——基本上是擦除先前的语境，尝试大量不同的方法，而不是合并多个智能体的结果。

Dwarkesh Patel

这非常有意思，因为人们对 AI 的一个常见担忧是“熵坍缩”——由于它们以类似的方式被训练，最终都会用同样的方式思考。这也是它们不擅于写作的原因。它们会沿着同一条路径走，有着相似的话语模式等等。

但也许 AI 的关键优势在于，你可以系统地……单位距离猜想之所以花了这么长时间才被证伪，原因之一似乎是人们原本以为该猜想是真的，所以他们大多在想办法证明它。AI 的一个关键优势或许就是，能够系统地同时尝试否定和证明某个命题的肯定形式，或者让不同的智能体拥有不同的偏见，从而增加熵。

在人类科学史上，有一个重要现象：爱因斯坦之所以能突破，很大程度上是因为他抱有“不同参考系中物理定律应该相同”这一偏见。他还有多种类似的偏见，但这一条对他的思想影响极为深远。你可以系统地审视一系列启发式策略，看看在当前问题上哪些是有效的。

Grant Sanderson

那么，你建议在提示词层面系统地增加熵，尽管在自回归层面不可避免地会发生坍缩？爱因斯坦会是一个有趣的例子，因为他倾向于认为事物是相对的。同时他还有“上帝不会掷骰子”这样的偏见。你要确保不会不小心让你所有的大语言模型都变成爱因斯坦，因为那样可能会阻碍量子力学的发展。

Dwarkesh Patel

这说明科学并没有唯一正确的启发式策略。你需要的只是多个独立的研究计划，各自带着自己的启发式方法。

Grant Sanderson

这感觉像是老式软件的做法——只要你能以某种方式描述清楚就行。你可以用老式软件来放大这种熵。如果你能对你想要提示的不同思维方式建立一个清晰的本体，你就去探索这个完整的本体，然后每一个单独的思维方式就会自行运转起来。

这里存在一个设计问题：如何精准地描述不同的方法。简单的区分是：你是想证明它还是证伪它？更难的是：你要列出所有可能的证明策略，并确保你以足够的广度去探索它们。

00:53:48 – 为什么现实世界任务无法融入强化学习环境

Dwarkesh Patel

显然，AI在数学领域的进步远快于其他领域，人们将领域可验证性视为关键原因。我认为这是两个重要原因之一，但人们确实忽视了另一个原因。我不在实验室内部，所以不清楚实际情况。这只是个纯外行的理论。

与“为什么AI在数学上进步这么快”相关的一个问题是：为什么它在电脑操作上进展如此缓慢？电脑操作是非常可验证的。我的Etsy包裹到了吗？我的活动预约成功了吗？这些都是极其可验证的调查事项。电脑操作缺乏的是可打磨性（grindability）。

因为网站有机器人检测程序——而且并行运行大量推演需要巨大的算力——想在亚马逊上并行跑一千次同样的结账流程非常困难。你会被Andy Jassy封掉的。

Grant Sanderson

他亲自按那个红色的“取消Dwarkesh”按钮。

Dwarkesh Patel

没错。你可以尝试为每个网站建立克隆，但那样非常耗费人力，拖慢进度。目前之所以需要做这么多并行推演来通过深度学习学会一项技能，是因为我们还没解决样本效率问题。

Grant Sanderson

就像Karpathy说的，用吸管吸取监督信号？

Dwarkesh Patel

正是如此。当然，人们正在尝试各种不同的技术，但根本上来讲，我们训练AI的方式存在一个很大的约束。对于代码，你可以将某个进度级别容器化在一个仓库里，然后旋转出数百个并行容器，说“尝试实现这个功能”，这完全是确定性的。因为它是确定性的，你可以解决信用分配问题——你知道无论是哪个推演成功、哪个失败，差异就在于那个起作用的改动。但如果各个情况从不同的起点开始，这个信用分配问题就会变得非常难以解决。

现实世界中的大多数事物很难用同样的方式封装。编程和数学是这条规则的例外。但如果你想弄清楚如何建立一个成功的新业务，或者如何在市场上交易一天并赚钱，那么你必须与真实世界互动，而世界每天都在变化，这意味着你不能反复刷、反复打磨、反复耕种模拟器。

数学当然是例外，我觉得这是该领域以及编程领域取得进步的一个重要驱动因素。这不仅仅是可验证性，还必须可反复打磨。

人们指出的第三个理由是AI正在快速进步，他们非常关注Lean和形式化。再次强调，我对实验室里发生的事情一无所知。我觉得Lean对于当前AI进步水平来说并不那么重要。为什么AI能够证伪单位距离问题的猜想？他们发布了思维链，或者至少是思维链的重写版本，里面根本没有Lean。我认为Lean提供的基于过程的监督——即你了解每一步都是正确的——似乎不如拥有这种可验证且可反复打磨的结果来得重要。

Grant Sanderson

关于可反复打磨性更重要的观点很有趣。天真的你可能认为Lean能为数学提供独特价值，因为你能够看到它是否能证明。你有老式软件可以告诉你“是”或“否”，然后你把它作为你的VR。最初的那些尝试会印证你的观点。再次回到IMO上，最初DeepMind就是这样做的。一切都是用Lean写的，然后第二年就全部改用自然语言了。所以你说的没错，它并不是必需的。

我确实认为，那个形式化领域还有一个尚未被探索的益处——目前，你仍然需要人类去审查单位距离猜想的那个反例，并说“看起来没问题”。这为事物在多大程度上可以无止境地探索设定了一个界限。如果你考虑像 AlphaGo 或 AlphaZero 这样的系统，它们在自己的宇宙里下围棋，自我探索，可能偏离任何人类需要审视的轨道，但它们仍然拥有自动可验证的奖励。这不仅意味着你可以在这上面做强化学习，还意味着你基本上永远不需要介入检查，只需投入算力让它们在围棋宇宙中探索。

值得关注的是——也许这不会成功，但关于它是否会产生成果，陪审团仍然悬而未决——通过 Lean，你可以想象一个基本无限运行的程序，不断尝试扩展 Mathlib。Mathlib 是一个 GitHub 仓库，基本上把所有数学都用代码写出来了。它离全部的数学还差得很远，但他们的目标是让它涵盖所有数学。这些代码是用一种你可以问“这个证明正确吗？”的方式写的。编写这些证明非常耗费人力。围绕它有一个完整的子社区。

但你可以想象有一种 AI，你对它说：“只管尝试去扩展 Mathlib。”也许它是 Mathlib 的一个分支，这样就不会混入垃圾内容，因为人们对什么该放进去有自己的品味。于是你有了一个纯净 AI Mathlib 的分支，它就这么运行下去，永不停止。它不需要任何人来检查。它可以一直进行下去。它可能会提出自己的猜想，可能会产生自己的理论和不同的定义。也许其中很多都是无用的，但它就像这棵可以无限生长的树。

数学拥有一个非常独特、其他领域都不具备的特点：你可以按下启动键，把计算资源大量投入进去，然后十年不去管它，再回来问一句：“你发现了什么？”——里面一定会有些成果。接下来问题就是：这些成果有没有用？你该如何判断？做这件事本身就很有意思。如果这样都产生不了某种有价值的数学洞见，那才让人意外。

Lean 在这个故事中有两个不同的重要作用。第一，它让你可以撒手不管、甚至不去检查进度，而进展仍然会发生。在围棋上你可以这么做，但我觉得在自然语言描述的数学上你就做不到。

德瓦克什·帕特尔

这很有意思。你看过卡帕西的自动研究想法吗？他写了一个 Python 文件，用来做基础的大语言模型训练，然后建了一个仓库，让大语言模型智能体尝试对这个文件进行修改，如果修改能加快运行速度，就保留这个修改。

埃里克·张（曾来讲解 AlphaGo 的工作原理）在试图构建一个非常强的围棋机器人时也做过类似的事情。他有一些有趣的观察：这个系统非常擅长运行实验并沿着一条路径深入，但它不擅长在死胡同及时止损，也不擅长做高度并行的事情。不过，未来这很可能会改变。

思考这种做法的极限状态非常有意思。从根本上说，人类数学研究的机构就是这样：它是一座以有趣且有用的方式不断扩展的图书馆。这种方式下，你没有基于结果的监督——没有你想要激励的特定成果，但你有一套流程。你知道每一步都是正确的，只是不知道它是否朝着有趣的方向发展。

格兰特·桑德森

如果你真这么做，你肯定不希望完全脱轨、在逻辑空间里做随机游走。你可能需要一个监督模型来提供启发式判断，评估它是否有用。我知道有人正在研究这个。这属于那种“五年之后”的事情，我很期待未来的我们能坐下来聊聊它。

也许这行不通，但陶哲轩曾谈到一个研究项目，该项目试图穷尽搜索所有可能的代数空间。你可以设想应用于代数系统的不同公理。当我们提出群论时，存在一个特定的公理系统，如果你不了解其动机，它看起来就像任意规则。如果你试遍所有公理会怎样？其中是否有能产生有用结果的呢？绝大多数公理在某种程度上都是垃圾——它们最终都会崩塌，无法得出有趣的结果。

但偶尔会出现一小片完全不同的公理系统岛屿，至少从它能推导出的定理数量来看，这片岛屿似乎非常丰富。这正是自动化证明器擅长的基础工作——探索那个空间，看看哪些公理能转化为有意义的东西。也许其中某个岛屿实际上可以被赋予后验的动机，即说明它试图捕捉的是哪种结构。

就像你可以想象审视群公理时，一开始并不知道它与对称性有关，但事后才意识到它与研究对称性高度相关。你可以想象类似的结果，只不过不仅仅是探索可能的代数系统，而是探索任何类型公理的所有可能逻辑推论。

Dwarkesh Patel

关于是否可以在不依赖Lean的情况下提供基于过程的监督，DeepSeek 有他们的 DeepSeek Math 模型。他们发布了一篇论文介绍如何训练该模型，内容相当有趣。

自然语言证明的问题在于你无法判断它是否正确。他们有一个验证器，该验证器由一个元验证器训练，确保在他们训练该模型求解的所有问题中（在问题求解艺术领域），验证器能提供良好的反馈。这方法是可行的。有趣的是，在已发表的文献中，带有某种元验证的自然语言验证到目前为止似乎效果不错。

在我们正在使用的已发布产品中，这似乎也有效果。看看编程智能体，它们在编写整洁代码和重构代码方面正变得越来越好。我敢肯定，有一些基于过程的“大语言模型作为评判者”系统在提供品味判断，并会问：“这是编写这个函数的简洁方式吗？是否存在重复的同类模块化形式？”这应该也适用于数学，对吧？

Grant Sanderson

对于数学而言，这看起来比任何其他领域都更可行，即便你只使用自然语言，你也可以信任一个验证器。我们之前聊过为什么它们不擅长写作。它们似乎是很好的评判者。如果我给它们两篇学生写的文章，它们能说出哪一篇更准确、更有洞察力。那么，为什么不能只用一个验证器来判断“这是一篇好文章还是不是”呢？

也许最终的失败在于，即使它们擅长区分B级论文和A级论文，它们实际上并不擅长区分A级论文和那些你真正想读的、能在Substack上被关注且有洞察力的东西。它们最终反而会偏爱没有洞察力的文章。

在数学方面，仅仅是判断一个证明是否正确这一步骤，就适合使用自动验证器，即便是在自然语言环境下。你大概还是能取得巨大进展。我仍然喜欢Lean中的逻辑树，只是因为你确实可能会偏离轨道。对于之前表述方式没有约束。每个人都在谈论AlphaGo的第37步。什么东西能让你跳出先前的启发式方法？在这种探索中，与现实世界脱节似乎是富有成效的，可以作为自然语言数学研究路径的一种补充。

Lean 的另一个相关之处在于，假设你有纯自然语言的强化学习环境和纯自然语言的证明集。人们说“请开始吧，AI 数学家”，然后它们每天生成十篇论文。如果其中存在任何错误率……Alex Kontorovich 曾讨论过这个问题。对数学家来说，这会变得令人难以忍受。每次看到这样一篇论文，你都不知道它是否值得你花时间。即使 100 篇里有 99 篇是正确的，我也不确定是否值得花时间，因为找出那个错误的成本实在太高。把时间都花在一篇垃圾论文上，这非常令人沮丧。

拥有某种能给你绿色对勾标记的东西，告诉你：“即使这篇论文理解起来会很复杂，即使它会很麻烦，但至少你知道它是正确的”——其他每个领域都会为此拼命。数学就有这个优势。如果模型还能将其自然语言证明形式化，那将意义重大。每个领域都希望拥有这样的东西。所以我认为你说得对，Lean 作为数学普遍进步的虚拟现实环境，其重要性或许被高估了。但我绝对不建议把它排除在故事之外。

Dwarkesh Patel

我也很喜欢把 Mathlib 的扩展当作一个隐喻，来比喻我们文明很快将要发生的事情。几千年来，人类构建了这些知识和理解的宝库，我们所拥有的一切现在都被浓缩进了这些模型。总有一天，模型会随意地将其延伸下去。

01:07:07 – 好的写作需要心理理论，而 AI 仍然缺乏这一点

Dwarkesh Patel

顺便说一下，在写作方面，我有一个理论解释为什么写作的进展比其他领域更差。一个原因正如你所说，它们不仅不擅长判断 A 与 B 孰优孰劣，而且还会被 B* 完全带偏——B* 是一篇糟糕的文章，却恰好击中了 A 本应击中的所有要点。奖励破解的问题完全失控了。

但另一个重要之处在于，写作并不像代码和数学那样模块化。你可以用多种不同方式编写一个函数，而它们实现的功能完全相同。当然，你希望代码写得整洁，但归根结底，只要功能实现，就没有问题。数学中的引理也是如此。最终产物可以与产生它的过程不同。代码是产生某种最终产物的东西，而你想要的是一个功能正常的最终产物。

而在写作中，最终产物直接就是 AI 所生成的内容本身。每个段落、每个句子、每个词都至关重要，因为它们就是内容的实质。它不是从写作过程中独立出来的某种别的东西。它不能像代码那样——代码即便写得潦草，依然可能产出你想要的结果，但写作不行。

Grant Sanderson

但你刚才指出，我们在智能体编写代码方面已经取得了很大进步——不仅写出功能正常的代码，还能写出整洁的代码。那么，为什么同样的进步，能够让你从“仅仅功能正常”演进到“整洁且可合并的 PR”，却不能带来更清晰的写作呢？

Dwarkesh Patel

问得好。另外，难道写作能力没有进步吗？我承认，在很多方面，这些模型确实是糟糕的写作者。但对于我阅读的许多文本来说，我发现更好的做法是直接把内容复制粘贴到大语言模型里，然后说：“给我解释一下这个。”模型给出的解释往往比人类写出的原文还要好。挺有趣的是，我们都说这些模型是糟糕的写作者，然而我实际的选择偏好却是让大语言模型来解释内容。

即使我在电话中与人类专家实时交谈，如果那是他们独有的、没有被纳入模型训练分布的知识，我当然希望由他们来解释。但如果为了理解那部分知识，我需要先理解一个更基础的概念，我更希望社交上允许我直接说：“我们先暂停一下。我让大语言模型解释一下这个原理，然后我们再回到你那个独特的知识点上。”

Grant Sanderson

这就是蒸馏，一种解释。如果我把你的写作质量比作散文作家——我给你一本书读，我需要一份读书报告——我可能会认为大语言模型给出的读书报告更好。但人们说它不好时真正在说的是：写作是什么？它不只是对已有思想的蒸馏。它不只是你如何清晰地解释，因为大语言模型很擅长解释。它关乎洞察本身。

这正是自回归生成方式非常奇怪的地方。写作时，你大致知道，要让它变好，你必须包含不可预测的元素。这不仅仅是提高你思维中的温度。而是精确知道在哪个正确的点上你想做一次不可预测的移动，而正是这个移动会带来更深刻的洞察。即便大语言模型更擅长解释已有的事物，那本你想先蒸馏出来的书最初又是谁写的呢？

它并不是大语言模型写的而你需要它。而是某位作者，通过对世界上各种思想的广泛探索，决定了哪些方面有趣，以及如何呈现它们才能形成一个连贯、动机充分的叙事。他们用某种方式把这一切组合在一起。如果他们是好作者，你多半会更愿意读他们的书，而不是读蒸馏后的版本。

然而，究竟是什么让探索本身最初就值得去做，并且还想要把它上传呢？正是人们说大语言模型不擅长写作时所指的那一面：那种不可预测的元素，那种有意选择新异事物的做法，它与通常生成事物的方式直接矛盾。

德瓦克什·帕特尔

这个观点不错。我认为它们在构建关于人类的优秀心智模型方面也表现得很差，而这是写作中一项非常重要的技能。Andy Matuschak 和另一位目前我忘了名字的合作者，做了一项有趣的报告，他们试图教大语言模型写出优秀的间隔重复提示词。我之所以非常喜欢这个例子，是因为尽管这看起来像是一个完全随机的技能……但你可以想想，大家都在谈论一年内实现递归自我改进，可我们却连让这些东西写出好的记忆卡片都做不到。这到底是怎么回事？

他们尝试了许多不同的技术，而且他们都是经验丰富的人。他们对开源模型进行了强化学习训练。他们尝试了各种方法，包括思维链，以及向最好的闭源模型发送一个长篇提示词。在我看来，关键的限制因素在于，写一张好的卡片需要预判一个人三个月后的心智状态。他们会以什么方式将这个问题联系起来？在那个时刻，他们脑海里会想到什么样的答案？这个提示能否激发你真正想从制作卡片所依据的段落中提取出的那个细节？

我认为写作与此类似。写作之所以是一个如此耗费精力且需要很长时间的过程，原因在于，每写一个词或一个句子，你都必须思考：此刻我读者的脑海中正在发生什么？

即使我调整语序，把结尾短语放到开头，让这成为你在阅读句子其余部分之前，脑海中首先浮现出的意象……也许自回归模型不擅长这个。这或许更像扩散模型的特性，即整体考虑，而不是逐句推进。但我也认为，这需要大量的心智化能力，而令人费解的是，这些模型在这方面表现得很挣扎。

Grant Sanderson

这个问题很有意思。它们在这方面表现不佳，是不是很奇怪？我可能会说得不太准确。你知道那种情况吧——你引用自己曾经读过的研究，但也许那项研究根本不存在？有一个非常令人难忘的例子。假设你想测试人们的情商。你展示一张某人面部表情的卡片，让受试者描述那种情绪。网上有一些很好的测试题，显示一张脸，然后列出四种可能的情绪。要准确描述出正确的情绪出奇地困难，但你也会感觉到确实存在一个正确答案。如果你拿身边人做这个测试，你会发现那些社交能力较强的人表现很好，而那些偏左脑思维的人则表现不佳。这是一种可以做得到的测试。

我隐约记得有一个相关实验，他们找了刚打完肉毒杆菌的人，做了前测和后测。后测时，他们在解读他人表情方面的能力明显变差了。这感觉很奇怪。

德瓦凯什·帕特尔

等等，他们打了肉毒杆菌？

格兰特·桑德森

是参加测试的人。你先做测试，然后去打肉毒杆菌，你的面部肌肉僵硬了，现在你理解所看到情绪的能力变差了。想法是：理解你所看到的情绪，部分原因在于你自己也做出了那种表情。在面部层面，你移动着自己的面部肌肉。你看到那种表情，模仿它，然后在某个非常潜意识的层面，你就会想：“哦，对，那是焦虑。”

所以从这个意义上说，如果模型的心理理论能力确实很差，那当然——它们知道一切，因为它们读过了所有人写的东西。但在能够真正设身处地、像我面部肌肉模仿你面部肌肉那样理解你感受的层面上——而这正是帮助我理解你感受的原因——那么这完全不足为奇。它们没有面部肌肉。它们的大脑运作方式完全不同。就像外星人试图共情一样。它怎么可能有心理理论？那会是某种非常涌现出来的东西。

而我们人类则可以直接把它（共情）接入自己的大脑。我们拥有现成的硬件来直接安放它。从这个角度看，这就不那么令人惊讶了。

01:16:02 – 为什么学习仍然要依赖人类筛选

德瓦克什·帕特尔

关于如何利用大语言模型进行学习，你有什么建议吗？就像我刚才说的，对于很多众所周知的概念，我觉得它们非常有帮助。但很多时候，只要再多聊几句，我自己想要理解某个东西的时候，它们自己就混乱了，结果把我也给带乱了。它们没有用正确的方式解释清楚。我知道，要是跟一个懂行的真人聊两句，三分钟就能把我的疑惑解开。

以后我们越来越想借助这些东西来学习。大家经常讨论教育和表述方面的事。你有没有注意到什么更高效的方式来使用它们来理解概念？

格兰特·桑德森

我很想听听你对这个问题的看法。我先说说我的想法。即便在大语言模型出现之前，我觉得学习过程中一个相关的洞见就是：认清“谁”比“什么”更重要。

我给所有大学生的选课建议是：少关心一点你现有的兴趣（因为现在这些兴趣多少有点随意），多关心一下授课的老师是不是一个好老师、是不是跟你合得来。选书的时候也是一样，作者是谁可能比这本书是不是你原先感兴趣的领域更重要。如果你之前喜欢一本书，那就去读同一个作者写的其他书，而不是读同一主题下的另一本书。

我这就联系到大语言模型上了。试着从维基百科页面学习，跟从——如果是哲学话题——斯坦福哲学百科学习，或者如果是数学话题，从《普林斯顿数学指南》学习，这两者之间的感受是不同的。区别在于，后者的文章是由单个作者有意识地撰写，他会真正围绕主题构建一个动机。

而在维基百科上，句子必须句句正确，这是一个局部最优解。但在优秀的讲解中，你可以在过程中对正确性稍微放松一些。你可以刻意先写出一些略有偏差的内容，随后再逐步修正，而这种方式在众包编辑环境下会被删掉。我觉得目前大语言模型给出的解释很像维基百科——也就是说，非常出色。想象一下维基百科出现之前的世界，要花多长时间才能找到并弄明白所有信息。

不过话说回来，维基百科页面上最有用的部分是什么？往往只是底部的参考文献。你找到关键参考文献，点进去阅读，有时这样反而能获得更好的整体概览。所以我经常喜欢问大语言模型：“我该读谁的作品？”甚至可以具体说明我希望用哪种方式来学习。

有一次我在学习半导体之类的知识时，确实被模型误导过。我觉得那是个非常视觉化的主题，但所有资料都是文字。我问：“有没有把你想讲解的概念用可视化方式呈现出来的视频？”Claude 回答说：“有的，这里有几个”，排在第一的是“有一个来自 3Blue1Brown 的视频”。我当时就说：“我敢肯定没有这样的视频。”

那确实是个真实视频、真实链接，但只是把别人的视频错误归属了。不过这也挺好的。我点过去看视频学习，体验比继续追问好得多。从这个意义上来说，我基本上是把大语言模型当成了超级加强版的谷歌，用来精准定位正确的人工撰写的资源。你呢？你经常使用这些工具，最好用的方式是什么？

Dwarkesh Patel

我想你说到了点子上。我经历过最高效的学习过程，往往是当有人类产出的某种成果——无论是一篇文章、一本书还是一段视频——用正确的方式把相关概念组织起来的时候。它会逐步铺垫你为什么要理解下一个概念，而这个概念又与你接下来要解决的问题相关，接着再引出下一个概念、再下一个概念。然后你再借助大语言模型，沿着书本已梳理出的这个分支，稍微修剪一些枝叶。实际上我最近在读——我猜可能是你推荐的——史蒂文·斯特罗加茨那本教材……

格兰特·桑德森

那本关于混沌的？《非线性动力学与混沌》？我很喜欢那本书。

德瓦克什·帕特尔

是的，我正在读，感觉太棒了。就像你的视频被做成了书的形式，超级有趣。我学习的方式是，屏幕上三分之一放他的大学讲课视频，三分之一放教材的相应部分，最后三分之一放一个大语言模型。我其实在想，如果我回到大学，现场听这堂课，肯定会完全听不懂。那些学生一定非常聪明，因为我需要不断暂停、读教材、跟大语言模型对话，然后再重新播放。但他用他精心编排的顺序引导你理解概念，用恰当的问题驱动你理解背后的动机……

大语言模型另一个非常不擅长的事情。一个真正优秀的人类能做到的是，当你提问时，他能说：“实际上，你思考这个主题的方式不太对。你应该问的问题，以及正确组织这些概念的方式，应该是X。”大语言模型根本做不到这一点。

格兰特·桑德森

它有点太讨好人了。最终就是那种谄媚行为，它总是说：“哦，这个问题真有见地。”你想要剥离这种倾向。这个观点很好，而且我觉得它触及了一点心智理论——即认识到学生提出某种问题，其实暴露了他们的心智结构与讲解者并不相同。

有时人们会过度使用这种教学方式。以一位真正优秀的老师为例，假设你在教初中数学。如果学生提了一个问题，表明他们正在以不同的方式思考，要当场认真对待并追问“等等，用你那个思路能得出正确答案吗？”，然后在说“别用那个方法，我们来这样”之前先停下来，这其实非常难。真正优秀的老师能够巧妙利用学生那种创造性的思考方式，并将其纳入教学过程。大语言模型目前做不到这一点。它们不会重新构建你的问题框架，而是直接跑偏。

至少在我们看来，这里面似乎有三个层次。大语言模型处于第一层，优秀讲解者处于第二层，而A+级别的讲解者则是那个能巧妙运用你的思维方式，并告诉你“你的思路在哪些地方是有用的”的人。也许五年后，会形成一个完整的循环，大语言模型将能做到这一点，而且方式会更加出色。

Dwarkesh Patel

对于那些我确信经常通过邮件向您提问的学生，您有什么建议？他们的问题是：“我对数学很好奇，对这个学科真的很有热情，但看到人工智能取得的种种进步，我不知道自己是否还应该以此为职业。”这个问题不仅与数学领域的人相关，也适用于任何注意到自己所在行业因AI而获得生产力提升的人。编程就与此高度相关。您对这些人在职业选择上有什么建议？

Grant Sanderson

我先声明，我不会轻易相信我自己给出的任何建议。但即便在AI出现之前，对于任何你将要从事的工作来说，真正理解……（如果说的是工作，不是像绅士科学家那样纯粹为了兴趣而研究数学或类似的东西）——你应该明白钱是从哪里来的，你实际增加的价值是什么，以及这两者之间的联系。人们对此的思考之少，令人惊讶，尤其是学生们。

他们身处这样一个环境：可能因为一直擅长数学而想往数学领域走。他们在生活中因为顺利通过下一个关卡而获得回报。当他们觉得自己想成为数学家时，是因为他们认为这能让自己继续沉浸其中。他们想的是“哪里能让人做这个？”而不是想“我给别人带来了什么价值？这种价值在多大程度上才是薪水流向我的原因？”

不同情况其实差异很大。在某些情况下，这位数学家声望极高，他/她在某所大学任职能为学校带来一定的品牌价值，这正是大学想要他们的原因。在另一些情况下，美国国家科学基金会的拨款是因为我们对基础科学所秉持的公共福祉信念。围绕这种信念有一套机构，还有一整套官僚体系充当我们对这种公共福祉认知的代理，并伴随着一整套繁文缛节来让他们正确预测你的研究进展将符合该资助的精神。有时则纯粹是教学。人们喜欢把孩子送到有专家授课的学府。作为专家，你提供了品牌价值；作为教师，你提供了直接价值。

无论人工智能是否在证明定理，也不管我们讨论的是2016年还是2026年，有一点是那些想着“我想成为一名数学家”的学生很少考虑的。我认为这值得思考。就我而言，我当初并非必然在想这个问题，而是偶然撞上了一条可以把数学探索当作娱乐来变现的职业道路。我碰上了这条路，并且非常感激，但这纯属偶然，并非刻意为之。如果我当时能批判性地思考这个问题，本可以避免依赖偶然，而是更有规划地做到这一点。

针对你的问题——如果我们有了近乎自动化的定理证明，而且假设它们同时也是非常出色的解释者，以至于你甚至能获得那种人类的深层理解——我认为数学家所承担的许多社会角色实际上并不会有太大改变。作为公众，我们仍然认为基础科学有其价值，并且我们信任数学家的判断，让他们来决定自己的时间应该花在哪里最合适。声誉来自于那个社群内部。是其他成员评价某个成果确实优秀，这比拨款申请书撰写者是否真正理解代数数论从而判断出它是一个好成果要重要得多。

关于什么构成了有价值的贡献，社群内部会形成一种文化。也许它会从定理证明转向撰写精妙的定义。也许就是博物馆策展人的那种思路。但只要整个社会仍然认同基础科学的前提，这个社群就会一直存在。而且如果我们处在AI带来的丰裕世界里，从某种意义上说，可能会有更多资金流向这个方向。

在院校因其讲师人选而获得的声望方面，我实际上认为教学是post-AGI时代最稳定的工作之一，因为它高度依赖人际关系。如果父母拥有充裕的财富，他们最愿意把钱花在这个地方：优质的教书和育人。这远远超越了单纯的讲解范畴。即使大语言模型是很好的讲解者，教师所做的更像是一种社交、辅导和导师型的工作，这很可能是未来五十年中依然存在的最稳定的职业之一。

由于许多数学家的角色与此有所重叠，作为一个即将踏入这一领域的学生，你可以向这个方向靠拢。我实际上认为，更多的学生应该认真思考并重视单纯成为一名数学教育者这一理念，以及这对下一代所能带来的价值。

我再强调一下，我觉得自己并不是那个可以说“年轻数学家们，你们应该这样看待未来”的人，因为我只是个 YouTuber。我并不在他们考虑进入的那个学术体制内，所以我只是一个旁观者在发表看法。但这看起来像是普遍适用的好建议：搞清楚钱从哪里来，以及你如何能融入其中。而且只要你在问这些问题，实际上你已经领先其他所有初出茅庐、有潜力的数学家好几步了。

德瓦克什·帕特尔

事实上，想象一下这样一个疯狂的世界：在五到十年内，AI 不仅能够解决千禧年大奖难题，还能首先提出全新的问题、全新的数学领域、数学对象等等。在那个世界里，首先，资源极大丰富；其次，AI 思维走得最远、在我们的认知地平线之外看得最远的地方，就是数学。届时将会有巨大的需求：“AI 看到了什么？你能不能给我们解释一下？”

在那个世界里，如果还有任何工作岗位的话，那么提炼 AI 所学到的东西，肯定会是其中之一。

格兰特·桑德森

而且，这也挺有趣的，因为这一切的前提都是假设数学毫无用处。我们现在并没有在谈论数学研究实际的应用价值。只要它有任何经济效用，你就能想到，那些真正理解它、并且能够决定它应该向哪个方向应用的人，凭借作为整理者做出判断的能力，将比之前拥有高出多得多的经济价值——他们能为这个数学新巨兽指引一个有实用价值的方向。突然间，这个决策所带来的杠杆回报，比以往任何时候都要大得多了。

德瓦克什·帕特尔

我能问你一个问题吗？显然，关于 AI 应用于数学，问题不仅在于它能不能做，还在于它做得好不好？或者说，它到底有什么用处？

你刚才在描述，我们如何利用群论去探究不同类型函数根的各种随机事实，而现在这些理论在众多不同领域都有了实用的应用。你是否觉得，如果我们完全进入一个人类数学领域加速10倍或100倍、出现一些疯狂成果的阶段，还是说我们会被其他领域所瓶颈？

Grant Sanderson

我认为有些领域确实可能会。这非常不均衡。在代数数论方面的进展，感觉不太可能因此解锁什么。但我记得曾与一位做动力系统和偏微分方程求解的数学家聊过。他提到他的团队有一些想法。让我看看我总结得对不对。就像波音制造飞机的方式：他们先制造出来，做大量测试，然后必须拆解并根据测试结果重新组装。他的团队基本上在模拟方面有一些洞见，可以让你不必拆解和重新构建。这为波音节省了数十亿美元之类的，然后他们就开始资助那个团队了。

这显然更贴近应用，因为偏微分方程本身就是那样。那个领域的进步，你可以想象确实能解锁一些东西。我不知道是否会是那种阶梯式变化，但可能更多是在引擎设计方面变得更流畅，或者找出合适的机翼形状，而不用运行一大堆复杂的计算流体动力学模拟。也许你能够加速你的计算流体动力学模拟，因为某些纯数学的洞见能使它们效率更高。我敢打赌，你会看到那里有很多很好的渐进式改进。

数学领域的重大突破似乎不太可能立即转化为同样重大的经济突破，比如你解决了纳维-斯托克斯问题，然后就能解锁模拟更多东西的能力。但你可能确实会在这些边缘地带看到，纯数学洞察中有些有意义的成果外溢到其他领域。现在有大量人员正在从事人工智能工程、物理工程和材料科学等方面的工作。可以想象，他们完全有能力审视人工智能在数学方面的洞察，并判断这些洞察在某种程度上是否具有相关性。

这又是那种我无法断言其必然会发生的情况之一。但如果未来五年内，没有出现那些直接源自人工智能在数学领域进展且具有经济价值的改进，那多少会有些令人失望，也多少有些令人意外。如果最终只是解决了一大堆埃尔德什难题，却没有一个能触及直接与物理世界交互的数学问题，那未免太令人失望了。

德瓦克什·帕特尔

关于你提到的这一点——数学史在很大程度上就是不断堆积概念和连接这些概念。有时这些堆积的概念会彼此连接起来，或者你在其他地方发现了某个应用。至少，你只是积累起了这一大堆东西。

然后，随着奇点时期社会更广泛的进步，当我们进入奇点的工业阶段时，你就拥有了所有这些不同的想法，希望它们能在世界的其他地方派上用场。

格兰特·桑德森

正如我所说，眼下正在发生的事情有趣的一点在于，它促使人们退后一步思考：“数学到底是什么？”也许最终的尴尬结论之一会是揭示出数学已经变得完全无用。人们所提出的那些问题已经变得与物理上可应用的东西如此脱节，以至于这成为数学家们不得不面对的问题之一。

所有人都会看着说：“等等，你们不是应该……如果那边取得了10倍的进展，为什么我们这边看不到呢？”然后数学家们就会说：“唉。”每次我们写那些经费申请并说“请相信我们，椭圆曲线方面的进展将有助于密码学”，它反而暴露出一个事实——也许并非如此。所以这是其中一种可能性。

Dwarkesh Patel

Grant，这真是太有趣了。非常感谢你参与。

Grant Sanderson

当然。这是我的荣幸。

关于本视频的讨论

评论 转载

Dwarkesh Podcast

深度研究型访谈

深度研究型访谈

收听平台

Substack App

Apple Podcasts

Spotify

YouTube

RSS Feed

本期节目嘉宾

Dwarkesh Patel

近期节目

下一个重大突破将是AI在工作中的学习

6月26日•Dwarkesh Patel

AI中心的数据黑洞

6月19日•Dwarkesh Patel

Ada Palmer – 马基雅维利是有史以来最被误解的思想家

6月16日•Dwarkesh Patel

Alex Imas 与 Phil Trammell – AGI之后什么仍然稀缺？

6月4日•Dwarkesh Patel

Reiner Pope – 从底层设计芯片

5月22日•Dwarkesh Patel

Eric Jang – 从零开始构建AlphaGo

5月15日•Dwarkesh Patel

David Reich – 为什么青铜时代是人类进化的拐点

5月8日•Dwarkesh Patel

准备好了解更多了吗？

© 2026 Dwarkesh Patel · 隐私 · 服务条款 · 收集通知

开始使用Substack 获取应用

Substack 是优秀文化的家园

其次，我好奇这种局限性还能持续多久。也就是说，当AI已经解决了百万美元难题时，你认为在那时是否仍有可能存在大量人类在做、而AI依然无法在经济活动中自动化的任务？