Saining Xie@sainingxie

精选

2025-06-17 09:33·380天前

精选理由

o3与Gemini 2.5在IOI级竞赛题上零分，LLM推理天花板显现

AI 摘要

所以这不是一个针对软件工程智能体的基准测试。它旨在通过编程测试核心推理与智能——由一些顶尖竞技程序员撰写的 71 页深度分析作为支撑。

AI 翻译 · 中文

所以这并不是一个针对软件工程智能体的评测基准。它的目的是通过编程来测试核心推理能力和智力——背后有来自顶尖竞技编程选手的 71 页深度分析。

这项工作由多所院校的学生共同完成（我基本上只是个啦啦队长！）主导者是 @ZihanZheng71803（一位代表纽约大学参加 ICPC 世界总决赛的本科生）、@wenhaocha1 以及他们许多获得奥赛奖牌的朋友。他们构建了这个实时基准，并提供了精英人类程序员与顶级大语言模型对比的专业分析。结果现已公开：在难题上，大语言模型基本上得了 0 分。它们擅长那些依赖记忆的重实现任务，但在偏重观察或逻辑推理的问题上仍然表现很差——这类问题一旦你产生关键性的“顿悟”灵感，实现起来其实很简单。它们在注重细节的任务上也表现不佳——往往能把基本部分做对，但无法考虑到边界情况。

下面再谈谈为什么这个基准很重要：我一直被顶尖竞技编程选手包围着。我在上海交通大学（SJTU）读本科时，该专业就以 ICPC 成绩斐然而闻名，主要招收高中阶段有深厚竞技编程背景的学生。虽然我自己从未赢得过奥赛奖牌，但我非常钦佩那些获奖的同窗——那些在青少年时期训练多年、在国际最高水平赛场上竞技的朋友们。其中一位是我的同学，也是这个项目的关键合作者——@shangjingbo 教授，他曾为上海交通大学赢得 ICPC 世界总决赛金牌。对我们来说，竞技编程曾是计算机学生智力的终极象征。竞技编程强调在压力下进行推理和解决问题，这与标准软件工程有所不同——但相关技能的可迁移性出奇地好。这就是为什么那么多初创公司喜欢炫耀自家有 IOI 金牌得主！

击败这个基准就好比 AlphaGo 击败李世石。我们还没有达到那个水平——即便是对于结果可以明确验证的问题来说也是如此。如果你关心基础的智力和推理能力，这个结果或许值得你仔细看看。

Zihan ZhengWe introduce LiveCodeBench Pro, a live, exceptionally challenging benchmark comprising competitive programming problems sourced from IOI, Codeforces, and ICPC. ...

推理编码评测/基准

在 X 查看原推导出 Markdown

Saining Xie@sainingxie · X