MaxProof:面向数学证明的群体级别测试时扩展框架(MiniMax-M3)
阅读原文· arxiv.orgMiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平,IMO 2025 35/42,USAMO 2026 36/42。这篇的意义不只分数,而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。
MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架,用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力,验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时,MaxProof 将模型用作生成器、验证器、精炼器和排序器,在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42,USAMO 2026 达 36/42,均超过人类金牌阈值。
我们提出 MaxProof,这是一个面向竞赛级数学证明的群体级测试时扩展框架,应用于 MiniMax-M3 系列。M3 首先训练三种面向证明的能力——证明生成、证明验证和基于批评的证明修复——使用一种为低假阳性率设计的纵深防御生成式验证器。这些能力被合并到单个发布的 M3 模型中。在测试时,MaxProof 将该模型视为生成器、验证器、优化器和排序器,在候选证明群体中进行搜索,并通过锦标赛选择返回一个最终证明。借助 MaxProof 测试时扩展,M3 模型在 2025 年国际数学奥林匹克(IMO)上达到 35/42,在 2026 年美国数学奥林匹克(USAMO)上达到 36/42,均超过人类金牌门槛。