Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026-06-15 00:00·10天前

精选理由

在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

AI 摘要

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

AI 翻译 · 中文

智能体终极考试

Yiyou Sun*、Xinyang Han*、Weichen Zhang*、Yuanbo Pang*、Tianyu Wang*、Yuhan Cao*、Yixiao Huang*、……、Dawn Song（*为核心贡献者）加州大学伯克利分校 RDI 2026年6月（预计阅读时间5-7分钟，更多详情请访问 https://agents-last-exam.org）同时发布于 LinkedIn 和 X

所有人都说最新的AI智能体很快就会“具备上岗能力”，尤其是在上周Fable 5发布之后。但事实果真如此吗？

在过去几个月里，伯克利RDI一直在构建“智能体终极考试”（Agents’ Last Exam，简称ALE），这是一个旨在检验上述说法在真实数字劳动力市场中是否成立的基准测试。借助ALE，我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统，涉及超过1500个由专家提供的任务，涵盖55个职业。结果既令人印象深刻，也发人深省。当今的智能体能够解决相当一部分专业任务。然而，当我们审视那些需要持续推理、深厚领域知识以及长周期可靠执行的最困难任务时，它们仍远未达到人类水平的表现。在ALE最难等级中，我们测试的所有前沿智能体，包括Fable 5在内，成功率均为0%。

有用的智能体时代已经到来。真正具备上岗能力的智能体时代尚未到来。

我们希望“智能体终极考试”（ALE）能成为新的路标和北极星，指引我们开发能够在广泛领域中可靠执行具有经济价值工作的智能体。

Agent pass rates on Agents' Last Exam across the Full-Spectrum tier, Last-Exam tier, and overall

ALE 基于真实工作，而非合成任务构建

每个任务都源自人类专家先前完成的一个真实项目，并转化为可验证、有客观评分的评估。没有主观判断。没有人类评审。完全可复现。

ALE 涵盖55个非体力职业，基于美国联邦职业分类体系O*NET / SOC 2018。它由来自100多个机构的300多位专家共同构建，横跨科学、工程、医学、法律、金融、教育及众多其他领域。

Agents' Last Exam taxonomy of 55 occupations

ALE 与现有智能体基准测试相比如何？

随着前沿系统的改进，当今许多智能体基准测试正在迅速饱和。ALE 旨在衡量一个不同的能力前沿：在真实世界专业领域中持续、具有经济价值的工作。

55个行业领域
超过1,500个专家来源的任务
完整的图形用户界面和命令行界面环境
基于结果、可验证的评估

ALE versus existing agent benchmarks: domain coverage against pass rate

如果你的智能体只能在终端中运行，我们还发布了ALE-CLI，这是该基准测试的一个仅包含CLI的子集。与Terminal-Bench和SWE-bench-Pro相比，它覆盖范围更广（任务涵盖ALE 55个行业子领域中的40个，而后者仅覆盖6个和5个），时间跨度更长（人类完成时间从数小时到数周，而非数分钟或数天），且难度更高（表现最好的智能体通过率仅为25.2%，而Terminal-Bench为82.0%，SWE-bench-Pro为59.1%）。仍有很大的提升空间。

ALE-CLI versus Terminal-Bench and SWE-bench-Pro: coverage, task horizon, and pass rate

性能只是故事的一半

在ALE中，Fable 5与GPT-5.5和Composer 2.5处于同一整体性能集群。但每项任务的成本差异显著：

→ Fable 5：约15.70美元 → GPT-5.5：约3.80美元 → Composer 2.5：约1.33美元

按当前定价，Fable 5在提供类似性能的同时，每完成一项任务的成本大约是其他模型的4到12倍。

Pass rate and score versus total API cost for the three frontier agents

为什么ALE的结果与其他一些基准测试看起来不同？

因为不存在普遍最优的智能体。包括Fable 5在内的每一个前沿模型，都有其擅长的领域和表现不佳的领域。综合得分平均了55个职业和超过1,500个任务，导致许多模型得分聚集在一起。但平均值并非关键。真正的信号在于智能体在哪里成功、在哪里失败，以及这些模式在不同领域间如何变化。在相同任务上，不同模型往往因截然不同的原因而失败。

Per-domain pass rates for the three frontier agents

最常见的失败模式仍然是我们熟悉的那一种：智能体在真正验证完工作之前就宣称成功。典型的完成信息是：“完成。所有检查通过。”然而输出可能缺少所需文件、包含错误计数、遗漏关键字段，或违反任务说明中的明确约束条件。这类失败发生的频率远超许多人的预期。

Per-task examples where one model passes and another fails on the same task

在我们的博客中探索交互式细分和具体示例 → https://agents-last-exam.org/blogs/agent-showdown

为什么叫“最后考试”？

“最后考试”这个名字既反映了具有经济价值工作需要达到的门槛，也代表了真实、复杂、长周期任务的最前沿难度。虽然有用智能体的时代已经到来，但真正能够胜任工作的智能体时代尚未到来。

我们期望智能体终极考试（Agents' Last Exam，ALE）能成为一个新的标杆和指路星，推动开发出能够在广泛领域中可靠执行具有经济价值工作的智能体。

快来 ALE 测试你的智能体

网站：https://agents-last-exam.org
任务：https://agents-last-exam.org/demo
排行榜：https://agents-last-exam.org/leaderboard
论文：https://arxiv.org/abs/2606.05405
数据集：https://huggingface.co/datasets/agents-last-exam/agents-last-exam
代码：https://github.com/rdi-berkeley/agents-last-exam

加入我们

为了推动这一前沿发展，我们欢迎贡献者通过提交任务和推荐领域专家来帮助构建下一版基准测试（贡献者将被邀请作为合著者）。请访问 https://agents-last-exam.org/submit 了解如何贡献，并在 https://agents-last-exam.org 浏览排行榜、论文和演示。

智能体arXivHugging Face开源生态

阅读原文