AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Rohan Paul@rohanpaul_ai

精选79

2026-05-23 06:37·29天前

精选理由

DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里，每步都必须编译通过，结果解决 9 个 Erdős 问题，失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。

AI 摘要

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

AI 翻译 · 中文

Google DeepMind 的新论文。

研究表明，AI 现在可以搜索形式化数学证明，但仅限于精心构造的受限世界。

令人瞩目的结果并非系统“像数学家一样思考”，而是它始终强迫自己的思路通过 Lean 进行形式化验证——每一步都必须通过编译检查。

问题在于，大语言模型在数学上可能听起来很有说服力，却仍会犯细小错误，因此作者使用了 Lean——一种检查每个逻辑步骤的证明系统。

他们的系统 AlphaProof Nexus 让大语言模型持续编辑形式化证明、读取编译器错误提示、重新尝试，有时还会就较小的子问题向更强大的证明工具求助。

更强的版本还维护了一个共享的局部证明尝试池，评估哪些尝试更有前景，并利用这些尝试来指导后续搜索。

这改变了模型的作用：从有说服力的讲述者，转变为候选方案的生成器——一旦出错就能被快速淘汰。

验证器并非可有可无的附加组件，而是让探索变得可容忍的机制。

没有它，一个漂亮的证明草图可能隐藏一个错误的引理；有了它，模型必须将洞见转化为可执行的逻辑，否则就会直观地失败。

作者在真实未解决的数学问题上测试了该系统，包括 353 个形式化的 Erdős 问题和 492 个来自整数序列在线百科的开放猜想。

主要结果是，最佳智能体解决了 9 个 Erdős 问题，证明了 44 个序列猜想，同时还协助解决了优化、图论、代数几何和量子光学领域的问题。

失败与成功同样具有启示性——因为智能体有时将难点藏在一个辅助引理中，或幻觉出一个已知结果，而这正是形式化检查旨在暴露的那类错误。

真正的转变并非数学上的完全自主，而是一种新的分工：人类选择形式化问题，函数库定义领域，模型提出路径，而证明助手不为所动。

----

"借助 AI 驱动的形式化证明搜索推进数学研究"

论文链接 – arxiv.org/abs/2605.22763

arXivDeepMind推理论文/研究

在 X 查看原推

Rohan Paul@rohanpaul_ai · X