Chubby♨️@kimmonismus DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。
Pushmeet Kohli: The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...
推荐理由:48%的得分背后是系统设计对模型能力的碾压,失败模式「reviewer-pleasing bias」和死亡螺旋比分数更有价值,提醒我们架构创新才是落地的真杠杆。