# 当前AI代码生成最难的基准测试ProgramBench

- 来源：向阳乔木 (@vista8)
- 发布时间：2026-05-11 12:52
- AIHOT 分数：56
- AIHOT 链接：https://aihot.virxact.com/items/cmp0r4uwc0s2lsllhmdwt5p7t
- 原文链接：https://x.com/vista8/status/2053699722540712152

## AI 摘要

ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

## 正文

当下AI写代码最难的 benchmark 叫 ProgramBench。

Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。

这个测试是 Meta、Stanford、Harvard 的研究团队搞的：

给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。

没有源代码，不能反编译，不能上网查资料。

从小工具到大项目都有，有jq、ripgrep 这种命令行小工具。

也有 FFmpeg、SQLite、PHP 编译器这种级别。

官网：https://programbench.com/
论文：https://arxiv.org/abs/2605.03546