OpenAI以"AI数学里程碑"突破自动推理边界,专家正在解析其意义
这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想,菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’,不是 hype,是界限真的被推了一把。
OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具,而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”,并警告称,我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。
首个足以登上数学顶级期刊的 AI 证明诞生了,而这不会是最后一个。
来自 OpenAI 的一个推理模型反驳了匈牙利数学家保罗·埃尔德什提出的所谓单位距离猜想。OpenAI 公布了这一结果,同时附上了一篇由九位外部数学家撰写的配套论文,他们对证明进行了验证、简化并加注了评语。
这个问题本身看似简单:在一张纸上放置一定数量的点。有多少对点恰好相距一个单位?1946 年,埃尔德什猜想,在一个略微倾斜的方形网格上进行的简单排列已经接近最优。这种排列所产生的点对数量仅比点本身的数量增长得略快一点。据数学家托马斯·布鲁姆称,埃尔德什曾悬赏 500 美元寻求反例。根据标准参考书《离散几何研究问题》,该问题被认为是“组合几何学中最著名(也最容易解释)的问题”。
时隔八十年,一种更好的构造出现了
OpenAI 的模型找到了一种新的点排列方式,其产生的单位距离点对比经典的方形网格明显更多。普林斯顿大学的威尔·萨温估计,每将点数翻倍,这种新构造能多出大约 1% 的点对。听起来很小,但在具体语境下却意义重大,因为埃尔德什的猜想原本认为几乎不可能存在这样的增益。不过,这个问题尚未完全解决:自 1984 年以来已知的一个理论上限,仍然远高于新构造所达到的效果。
令人瞩目的是,这些工具并非来自几何学,而是来自代数数论。该模型没有使用经典的点网格,而是利用了复数系统,其内在对称性转化为了格外密集的点阵模式。这些工具在数论领域已沿用数十年。然而,参与其中的数学家认为,将它们应用于平面几何中的一个基础问题,此前被认为是异想天开。
为什么人类错过了这个解
Thomas Bloom 在合著论文的投稿中写道,要让人类找到这个解决方案,需要满足四个条件:你必须在这个问题上投入大量时间、敢于与 Erdős 的既定观点对着干并真正尝试证伪、愿意将原始构造翻译到数域的世界中,并且要足够熟悉相当专业的类域论。“AI 满足了所有这些标准,”Bloom 写道。它兼具“超人的耐心和对大量技术工具的熟悉程度。”
Sawin 从技术角度解释了为什么那些显而易见的推广方式会失败。最自然的做法是选定一个扩展数系,然后观察其中越来越大的片段,本质上是在一个更复杂的数世界中放大原有的网格。根据 Sawin 的说法,那样只会回到 Erdős 原有的界限。而该模型的关键技巧恰恰相反:它在每个数系内部保持尺度不变,但在每一步都切换为越来越丰富的数系。Sawin 写道,为什么这种特定的切换会生效,对人类而言并不显然。
就在 AI 给出解决方案前一个月,Bloom 还在博客中将这个问题列为他的“十大 Erdős 问题”之一。他的动机是:一些观察者看到早期 AI 解决了更简单的 Erdős 问题,就认为这位数学家的所有问题都很 trivial。Bloom 想证明,许多 Erdős 问题其实催生了几十年的深度研究方法。
单位距离猜想是他清单上唯一的离散几何问题,原因恰恰是“它几十年来一直未被证明”。Bloom 指出,Spencer、Szemerédi 和 Trotter 在 1984 年确立的上界在 40 多年里从未被突破:“这个问题是一个很好的例子,说明尽管近年来离散几何领域取得了一些引人注目的成果,但我们距离理解哪怕一些最基本的问题仍然很远。”他没想到仅仅一个月后 AI 就能攻克这个特定的问题:“虽然我相信 AI 最终能在那个清单中至少解决其中几个问题上取得进展,但我没料到这一切仅仅在一个月后就发生了!”
来自数学界的反应
著名组合数学家诺加·阿隆(Noga Alon)称这一结果为“杰出成就”,并形容这一令人惊讶的发现是“其构造与分析以优雅而巧妙的方式运用了代数数论中相当复杂的工具”。菲尔兹奖得主蒂莫西·高尔斯(Tim Gowers)写道,如果是一位人类向《数学年刊》提交这篇论文并请求快速评审,“我会毫不犹豫地建议接受”。此前没有任何AI生成的证明达到过这种水平。高尔斯称其为“AI数学领域的一个里程碑”。
数论学家阿鲁尔·尚卡尔(Arul Shankar)认为这项工作证明了当前AI模型“已超越人类数学家的简单助手角色——它们能够产生独创的巧妙想法,并将其付诸实现”。布卢姆对此有所保留:该证明并未提供任何根本性的新几何工具,而一个完整的猜想证明很可能需要这类工具。但它表明,“在数论构造对这些问题的解释力方面,我们此前低估了很多。”他预计“未来几个月里,许多代数数论学家将密切关注离散几何中的其他未解决问题。”
为什么这个案例与众不同
近几个月来,AI系统已经解决或部分解决了一系列埃尔德什问题。由布卢姆维护的 erdosproblems.com 平台收录了约1000个问题。据菲尔兹奖得主陶哲轩(Terence Tao)称,截至2025年9月,其中约380个已被解决。在2026年初的一段混乱时期,又有大约50个问题被攻克,其中一些由人类完成,一些由AI完成,还有一些是人机协作。其中一些解法只有几页篇幅,或者相当于具有挑战性的课后习题水平。
这正是促使布卢姆编制其前十榜单的原因。他注意到,“不幸的是,我看到一些数学家最近开始对埃尔德什问题不屑一顾,也许是因为他们看到AI解决该网站一些问题的报道,而那些问题其实相当简单,于是错误地推广到认为埃尔德什提出的所有问题都只是有趣的雕虫小技,相当于奥数题水平。”
单位距离的反驳在配套论文和 OpenAI 那里都被明确归入了不同类别。据 OpenAI 称,这是“人工智能首次自主解决一个数学子领域核心的著名开放问题”。Bloom 描述了自己的反应:当他得知这是一次反驳时,他的巨大惊喜“略微减弱”,而当他看到具体构造时,惊喜更是进一步降低。
尽管如此,这一发现依然成立:与之前那些关于 Erdős 问题的解法不同,这并非一个容易完成的练习。这是一个被公认困难了八十年的问题,其上限自 1984 年以来从未改变,而解决它需要来自一个遥远领域的工具。
Gowers 总结道:如果这项工作是人类提交的,他会“毫不犹豫地”将其接受至《数学年刊》。此前没有任何 AI 生成的证明能达到这种水平。
这一结果对数学本身意味着什么
参与其中的几位数学家利用这篇配套论文反思了 AI 对其领域贡献的结构性影响。合著者 Daniel Litt 提出了一些令人不安的问题:为什么那些可以用相对简短、巧妙的论证解决的著名问题会存在?他的猜测是:要么研究者固守于次优假设——例如 Erdős 本人认为自己的猜想是正确的——要么解决方案需要来自相关领域大多数人都不熟悉的学科思想。
“这些解释如果正确,应当让我们感到一些不安,”Litt 写道。“它们表明,追求专业化和各自为政的激励虽然可以理解,却让我们损失了一些高质量的科学成果。”Litt 将人类的研究方式——研究者出于个人好奇心对少数问题深入钻研——与当前 AI 系统地遍历整个问题列表的模式进行了对比。这相当于“对数学问题投入的注意力的大幅扩展”。
Gowers 对自己的反应直言不讳。当他最初以为 AI 是证明了猜想而非反驳它时,他花了一整个晚上“调整我的世界观:如果 AI 能拿出这样的证明,那么数学家可能很快就会全完了。”第二天早上,当这个误会澄清后,他感到“如释重负”。一个反驳结果可以被想象成耐心与试错的产物。而一个真正的证明则需要“深层洞见”,那才会令人不安。
在配套论文中,高尔斯提出了自己衡量证明难度的标准。他将其称为"基于专家参照的科尔莫戈罗夫复杂度"——即专家为独立重构该证明所需的最短提示序列长度。他的初步判断是:AI 尚未全面超越人类,但在某些特定类型的问题上具备优势。AI 拥有"百科全书式的数学知识",更少受时间管理困扰,因此"能够甘愿费很大力气去证明那些看似不大可能成立的命题。"
即便如此,他指出进步不会停滞。很快就会出现一些 AI 的解决方案,"我们在事后回顾时,将很难把它们解释为比预想中更简单的 trivial 结果。"即便 AI 无法找到冗长复杂的证明,"我们很可能已经进入了一个时代:在解决数学问题方面,人类将很难与 AI 竞争。"
布鲁姆持中间立场。针对他自己提出的测试问题——该证明是否让整个领域对这个问题有了新的认识——他给出了"有条件的肯定"作为回答。数论构造方法似乎比任何人此前所猜想的更能揭示这类问题的本质,而所需的数论知识也可以非常深入。该领域的一些人可能会失望,因为这份证明并未带来"强大的新几何工具"或出乎意料的结构性成果——而完整证明该猜想很可能需要这些。这个解法"在事后看来"是一个自然的推广,但"极不平凡"。人类要发现它,需要四种罕见的巧合同时出现。
布鲁姆这样描述 AI 的优势:它将"超乎常人的耐心"与"对海量技术工具的熟悉"结合起来,并执著地探索"人类可能因为觉得不值得花时间去研究而放弃的路径"。他的展望是:"知识的边界非常崎岖不平,毫无疑问,未来数月乃至数年内,数学的其他许多领域也将出现类似的成功——AI 通过揭示意想不到的联系、将现有技术工具推向极限,来解决长期悬而未决的开放问题。"
人类与机器分工协作。
OpenAI 发表的配套论文本身就是一个预览,展示了未来 AI 和研究人员之间如何分工。根据 Bloom 的说法,模型生成的原始证明“完全有效”,但人类作者“显著改进”了它。只有 Sawin 的改进产生了具体的改进度量。配套论文中印刷的版本比原始版本更短、更通用。
第二步最近是 Tao 在斯坦福未来数学研讨会上的演讲焦点。Tao 认为数学实践目前正在经历“证明消化不良”:AI 系统越来越快地生成和验证证明,但人类的消化——即理解、解释、置于上下文中并基于结果进行构建——跟不上。他判断一个解决方案是否真正完整的标准:能否有人就此发表演讲并回答问题?在单位距离反例的情况下,九位著名数学家同意去做这项工作。这个标准能否扩展到其他情况完全是另一个问题。