# MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-06-11 08:00
- AIHOT 分数：79
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmqac9xug0k4tslld2l8zate2
- 原文链接：https://arxiv.org/abs/2606.13473

## 精选理由

MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平，IMO 2025 35/42，USAMO 2026 36/42。这篇的意义不只分数，而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。

## AI 摘要

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架，用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力，验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时，MaxProof 将模型用作生成器、验证器、精炼器和排序器，在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42，USAMO 2026 达 36/42，均超过人类金牌阈值。

## 正文

我们提出 MaxProof，这是一个面向竞赛级数学证明的群体级测试时扩展框架，应用于 MiniMax-M3 系列。M3 首先训练三种面向证明的能力——证明生成、证明验证和基于批评的证明修复——使用一种为低假阳性率设计的纵深防御生成式验证器。这些能力被合并到单个发布的 M3 模型中。在测试时，MaxProof 将该模型视为生成器、验证器、优化器和排序器，在候选证明群体中进行搜索，并通过锦标赛选择返回一个最终证明。借助 MaxProof 测试时扩展，M3 模型在 2025 年国际数学奥林匹克（IMO）上达到 35/42，在 2026 年美国数学奥林匹克（USAMO）上达到 36/42，均超过人类金牌门槛。