向阳乔木@vista8

2026-05-11 12:52·52天前

AI 摘要

ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

当下AI写代码最难的 benchmark 叫 ProgramBench。

Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。

这个测试是 Meta、Stanford、Harvard 的研究团队搞的：

给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。

没有源代码，不能反编译，不能上网查资料。

从小工具到大项目都有，有jq、ripgrep 这种命令行小工具。

也有 FFmpeg、SQLite、PHP 编译器这种级别。

官网：https://programbench.com/ 论文：https://arxiv.org/abs/2605.03546