MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》