o3与Gemini 2.5在IOI级竞赛题上零分,LLM推理天花板显现
所以这不是一个针对软件工程智能体的基准测试。它旨在通过编程测试核心推理与智能——由一些顶尖竞技程序员撰写的 71 页深度分析作为支撑。
所以这并不是一个针对软件工程智能体的评测基准。它的目的是通过编程来测试核心推理能力和智力——背后有来自顶尖竞技编程选手的 71 页深度分析。
这项工作由多所院校的学生共同完成(我基本上只是个啦啦队长!)主导者是 @ZihanZheng71803(一位代表纽约大学参加 ICPC 世界总决赛的本科生)、@wenhaocha1 以及他们许多获得奥赛奖牌的朋友。他们构建了这个实时基准,并提供了精英人类程序员与顶级大语言模型对比的专业分析。结果现已公开:在难题上,大语言模型基本上得了 0 分。它们擅长那些依赖记忆的重实现任务,但在偏重观察或逻辑推理的问题上仍然表现很差——这类问题一旦你产生关键性的“顿悟”灵感,实现起来其实很简单。它们在注重细节的任务上也表现不佳——往往能把基本部分做对,但无法考虑到边界情况。
下面再谈谈为什么这个基准很重要:我一直被顶尖竞技编程选手包围着。我在上海交通大学(SJTU)读本科时,该专业就以 ICPC 成绩斐然而闻名,主要招收高中阶段有深厚竞技编程背景的学生。虽然我自己从未赢得过奥赛奖牌,但我非常钦佩那些获奖的同窗——那些在青少年时期训练多年、在国际最高水平赛场上竞技的朋友们。其中一位是我的同学,也是这个项目的关键合作者——@shangjingbo 教授,他曾为上海交通大学赢得 ICPC 世界总决赛金牌。对我们来说,竞技编程曾是计算机学生智力的终极象征。竞技编程强调在压力下进行推理和解决问题,这与标准软件工程有所不同——但相关技能的可迁移性出奇地好。这就是为什么那么多初创公司喜欢炫耀自家有 IOI 金牌得主!
击败这个基准就好比 AlphaGo 击败李世石。我们还没有达到那个水平——即便是对于结果可以明确验证的问题来说也是如此。如果你关心基础的智力和推理能力,这个结果或许值得你仔细看看。