Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

2026-05-25 18:41·26天前·Matthias Bastian

精选理由

AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题，虽然成功率只有 2.5%，但这条路证明形式化验证+强化学习是走得通的，做推理的该盯着看了。

AI 摘要

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题，其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤，而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

AI 翻译 · 中文

Google DeepMind 的 AlphaProof Nexus 以区区几百美元成本攻克了数十年悬而未决的数学难题。

AlphaProof Nexus 将大语言模型驱动的证明生成与机器验证相结合，攻克了令数学家困惑数十年的数学研究问题。

Google DeepMind 的新框架 AlphaProof Nexus 已自主解决了它尝试的 353 个埃尔德什开放问题中的 9 个，其中包括两个长达 56 年无人解答的问题。

该系统还证明了来自整数序列在线百科全书（OEIS）的 492 个开放猜想中的 44 个，解决了代数几何中一个关于希尔伯特函数的 15 年悬而未决的问题，并改进了凸优化中的一个已知界限。根据研究论文，每个问题的推理成本仅为几百美元。

与 OpenAI 近期解决方案那种（可能）纯粹自然语言的方法不同，AlphaProof Nexus 中的底层语言模型——本例中是 Gemini 3.1 Pro——无需独自承担整个逻辑链条。

相反，它用 Lean 的形式化语言生成证明步骤，然后由编译器逐一检查。错误信息直接反馈到下一次尝试中。这样，大语言模型通过符号反馈得到了锚定——一个抵消语言模型在逻辑推理方面众所周知弱点的安全网。人类只在最后介入，检查结果。

四个智能体，一个令人惊讶的结论

该系统由四个复杂度递增的智能体变体组成。最简单的 Agent (A) 部署独立的子智能体，在循环中运行 Gemini 3.1 Pro：大语言模型生成证明步骤，Lean 编译器检查它们，错误信息反馈到下一次尝试中。

Agent (B) 增加了对 AlphaProof 的查询——Google 基于强化学习的奥数系统——它可以填补缺失的证明片段。Agent (C) 引入了进化组件。受 AlphaEvolve 启发，子智能体共享一个共同的证明草图种群。基于 Gemini 3.0 Flash 构建的评分智能体对这些草图的合理性和新颖性进行评分，然后使用 Elo 系统进行排序。完全装备的 Agent (D) 结合了所有这些能力。

Agent (D) 被用于埃尔德什问题。但事后分析发现了一个意外：最简单的 Agent (A)（仅使用大语言模型和编译器反馈）也能证明所有九个已解决的埃尔德什问题，尽管在最难的几个问题上成本更高。

研究人员将这种简单智能体的成功归因于两个因素：底层语言模型的快速改进，以及“编译器反馈在 grounding LLM 推理中的强大作用”。配置齐全的智能体在目前最困难的任务上仍具优势，但随着大语言模型的进步，这一领先优势可能会缩小。研究人员表示，这指向一个更大的趋势，他们将其描述为“随着大语言模型能力的增强，从专门的训练系统向简单智能体循环的持续转变”。

即便没有完整证明，系统依然有用

该系统的成功主要集中在组合数学、凸优化和数论等领域，在这些领域，Lean 的数学库 Mathlib 已相当成熟，且问题可以分解为可管理的子目标。大部分 Erdős 问题仍无法触及，“更不用说那些需要大量新理论的问题了”，研究人员写道。智能体也继承了底层语言模型的不可靠性。

尽管如此，他们看到了超越解题本身的价值。使用该系统的数学家报告称，即使是失败的证明尝试也加深了他们对问题的理解，或者如作者所说，“AI 驱动的形式化证明搜索不仅可以用来解决问题，还能加深人类的理解。”

由于草图是形式化的，专家可以专注于未解决的子目标，而不必从头重新检查整个论证。智能体在捕捉文献中形式化的错误方面也表现出色。“形式化验证可以作为一种过滤器，用于判断哪些证明值得人工审阅，”作者写道。

根据论文，该系统已用于正在进行的量子光学和图论研究中。所有 Lean 证明和选定的自然语言证明都已在 GitHub 上公开。

Erdős 问题成为 AI 数学的基准

OpenAI 最近使用一款专有的推理模型反驳了 Erdős 的单位距离猜想。菲尔兹奖得主 Tim Gowers 称其为“AI 数学的一个里程碑”。在此之前，GPT-5.2 Pro 帮助解决了 Erdős 第 281 号问题，Terence Tao 将此案例称为大语言模型解决开放数学问题“或许最明确的一例”。此后，GPT-5.4 又解决了另一个 Erdős 问题。

从某些角度来看，这些成果比 DeepMind 的方法更令人印象深刻。大语言模型必须通过自然语言承载整个逻辑链条，而没有 Lean 编译器来检查每一步。AlphaProof Nexus 更加系统化且更具可扩展性，但它追求的是不同的目标：为日常数学研究构建一个可靠的 AI 工具。当然，OpenAI 也可以将 Lean 集成到它们的框架中，但关键在于更侧重于测试原始大语言模型能力。

不过，陶哲轩过去曾告诫不要过度解读这些头条新闻。AI 在 Erdős 问题上的实际成功率仅为百分之一到百分之二，而且集中在较简单的题目上。谷歌的系统只解决了 353 个问题中的 9 个。这几乎与陶哲轩所说的百分之二的门槛完全吻合。

没有炒作的 AI 新闻——由人类精选

DeepMindGoogle推理论文/研究

The Decoder：AI News（RSS）

精选72