Arena 跳出了刷榜逻辑,用真实用户的多轮交互来评估 Agent,这比任何 toy benchmark 都更有说服力,选模型做 Agent 应用的可以把它当新指南。
Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。
Arena 刚刚发布了一个真实世界智能体排行榜,根据 AI 模型完成实际用户任务(而非孤立的基准测试问题)的表现来排名。
该系统追踪智能体使用网络搜索、文件和终端工具的过程,同时用户会要求它们编写代码、构建应用、研究课题、创建文档以及分析文件。
几乎所有传统 AI 基准测试的问题在于,它们测试的是“干净”的任务,而智能体现在要处理的是像编码、研究、文档、网页浏览、文件和终端命令这类“杂乱”的工作。
Agent Arena 试图在真实的工作会话中衡量智能体——在任务进行过程中,用户会纠正它们、批准结果、投诉、下载文件,并暴露出工具故障。
其核心理念是将每个模型选择视为一个测试条件,然后估算该模型相比基准线能在多大程度上改善任务结果。
该排行榜综合了 5 个信号:确认的任务成功、表扬与抱怨、遵循纠正的能力、从终端错误中恢复的能力,以及智能体是否编造出并不存在的工具。
数据量足够大,能够展示真实的行为模式,包含 30 万+ 任务、200 万+ 工具调用,以及智能体生成的 4000 万行代码。
得分综合了任务成功、可引导性、bash 恢复、表扬与抱怨以及工具幻觉——也就是说,模型是根据它是否完成任务、是否能够恢复、是否接受纠正以及是否避免虚假工具调用来评判的。
GPT-5.5 High 以 +10.7% 的净改善率领先,其次是 Claude Opus 4.7 Thinking 的 +9.5% 和 GPT-5.4 High 的 +8.9%。
最有用的细节是,智能体像承受压力的工人一样失败:它们可能留下一部分未完成,却声称工作已完成,或者在受到纠正后语气依然自信但实际上退缩了。
Arena 最大的贡献在于将智能体视为工作系统,在其中模型选择、工具使用、恢复行为以及用户满意度都会被综合考量。