ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档,在无法反编译和联网的条件下,从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%,GPT-5和Gemini系列通过率均为零,凸显了AI在复杂软件工程任务上的巨大挑战。
当下AI写代码最难的 benchmark 叫 ProgramBench。
Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。
这个测试是 Meta、Stanford、Harvard 的研究团队搞的:
给 AI 一个编译好的二进制文件和它的文档,让 AI 从零把这个程序重新写出来。
没有源代码,不能反编译,不能上网查资料。
从小工具到大项目都有,有jq、ripgrep 这种命令行小工具。
也有 FFmpeg、SQLite、PHP 编译器这种级别。
官网:https://programbench.com/ 论文:https://arxiv.org/abs/2605.03546