伯克利RDI发布Agents' Last Exam基准
在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。
智能体终极考试
所有人都说最新的AI智能体很快就会“具备上岗能力”,尤其是在上周Fable 5发布之后。但事实果真如此吗?
在过去几个月里,伯克利RDI一直在构建“智能体终极考试”(Agents’ Last Exam,简称ALE),这是一个旨在检验上述说法在真实数字劳动力市场中是否成立的基准测试。借助ALE,我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统,涉及超过1500个由专家提供的任务,涵盖55个职业。结果既令人印象深刻,也发人深省。当今的智能体能够解决相当一部分专业任务。然而,当我们审视那些需要持续推理、深厚领域知识以及长周期可靠执行的最困难任务时,它们仍远未达到人类水平的表现。在ALE最难等级中,我们测试的所有前沿智能体,包括Fable 5在内,成功率均为0%。
有用的智能体时代已经到来。真正具备上岗能力的智能体时代尚未到来。
我们希望“智能体终极考试”(ALE)能成为新的路标和北极星,指引我们开发能够在广泛领域中可靠执行具有经济价值工作的智能体。

ALE 基于真实工作,而非合成任务构建
每个任务都源自人类专家先前完成的一个真实项目,并转化为可验证、有客观评分的评估。没有主观判断。没有人类评审。完全可复现。
ALE 涵盖55个非体力职业,基于美国联邦职业分类体系O*NET / SOC 2018。它由来自100多个机构的300多位专家共同构建,横跨科学、工程、医学、法律、金融、教育及众多其他领域。

ALE 与现有智能体基准测试相比如何?
随着前沿系统的改进,当今许多智能体基准测试正在迅速饱和。ALE 旨在衡量一个不同的能力前沿:在真实世界专业领域中持续、具有经济价值的工作。
- 55个行业领域
- 超过1,500个专家来源的任务
- 完整的图形用户界面和命令行界面环境
- 基于结果、可验证的评估

如果你的智能体只能在终端中运行,我们还发布了ALE-CLI,这是该基准测试的一个仅包含CLI的子集。与Terminal-Bench和SWE-bench-Pro相比,它覆盖范围更广(任务涵盖ALE 55个行业子领域中的40个,而后者仅覆盖6个和5个),时间跨度更长(人类完成时间从数小时到数周,而非数分钟或数天),且难度更高(表现最好的智能体通过率仅为25.2%,而Terminal-Bench为82.0%,SWE-bench-Pro为59.1%)。仍有很大的提升空间。

性能只是故事的一半
在ALE中,Fable 5与GPT-5.5和Composer 2.5处于同一整体性能集群。但每项任务的成本差异显著:
→ Fable 5:约15.70美元 → GPT-5.5:约3.80美元 → Composer 2.5:约1.33美元
按当前定价,Fable 5在提供类似性能的同时,每完成一项任务的成本大约是其他模型的4到12倍。

为什么ALE的结果与其他一些基准测试看起来不同?
因为不存在普遍最优的智能体。包括Fable 5在内的每一个前沿模型,都有其擅长的领域和表现不佳的领域。综合得分平均了55个职业和超过1,500个任务,导致许多模型得分聚集在一起。但平均值并非关键。真正的信号在于智能体在哪里成功、在哪里失败,以及这些模式在不同领域间如何变化。在相同任务上,不同模型往往因截然不同的原因而失败。

最常见的失败模式仍然是我们熟悉的那一种:智能体在真正验证完工作之前就宣称成功。典型的完成信息是:“完成。所有检查通过。”然而输出可能缺少所需文件、包含错误计数、遗漏关键字段,或违反任务说明中的明确约束条件。这类失败发生的频率远超许多人的预期。

在我们的博客中探索交互式细分和具体示例 → https://agents-last-exam.org/blogs/agent-showdown
为什么叫“最后考试”?
“最后考试”这个名字既反映了具有经济价值工作需要达到的门槛,也代表了真实、复杂、长周期任务的最前沿难度。虽然有用智能体的时代已经到来,但真正能够胜任工作的智能体时代尚未到来。
我们期望智能体终极考试(Agents' Last Exam,ALE)能成为一个新的标杆和指路星,推动开发出能够在广泛领域中可靠执行具有经济价值工作的智能体。
快来 ALE 测试你的智能体
- 网站:https://agents-last-exam.org
- 任务:https://agents-last-exam.org/demo
- 排行榜:https://agents-last-exam.org/leaderboard
- 论文:https://arxiv.org/abs/2606.05405
- 数据集:https://huggingface.co/datasets/agents-last-exam/agents-last-exam
- 代码:https://github.com/rdi-berkeley/agents-last-exam
加入我们
为了推动这一前沿发展,我们欢迎贡献者通过提交任务和推荐领域专家来帮助构建下一版基准测试(贡献者将被邀请作为合著者)。请访问 https://agents-last-exam.org/submit 了解如何贡献,并在 https://agents-last-exam.org 浏览排行榜、论文和演示。