MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

2026-06-11 08:00·22天前

精选理由

MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平，IMO 2025 35/42，USAMO 2026 36/42。这篇的意义不只分数，而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。

AI 摘要

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架，用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力，验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时，MaxProof 将模型用作生成器、验证器、精炼器和排序器，在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42，USAMO 2026 达 36/42，均超过人类金牌阈值。

AI 翻译 · 中文

我们提出 MaxProof，这是一个面向竞赛级数学证明的群体级测试时扩展框架，应用于 MiniMax-M3 系列。M3 首先训练三种面向证明的能力——证明生成、证明验证和基于批评的证明修复——使用一种为低假阳性率设计的纵深防御生成式验证器。这些能力被合并到单个发布的 M3 模型中。在测试时，MaxProof 将该模型视为生成器、验证器、优化器和排序器，在候选证明群体中进行搜索，并通过锦标赛选择返回一个最终证明。借助 MaxProof 测试时扩展，M3 模型在 2025 年国际数学奥林匹克（IMO）上达到 35/42，在 2026 年美国数学奥林匹克（USAMO）上达到 36/42，均超过人类金牌门槛。

HuggingFace Daily Papers（社区热门论文）

精选79导出 Markdown

MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

2026-06-11 08:00·22天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

推理论文/研究

阅读原文