Rohan Paul@rohanpaul_ai

精选76

2026-06-06 06:01·27天前

精选理由

Arena 跳出了刷榜逻辑，用真实用户的多轮交互来评估 Agent，这比任何 toy benchmark 都更有说服力，选模型做 Agent 应用的可以把它当新指南。

AI 摘要

Arena 推出基于真实用户任务的智能体排行榜，评估模型在代码编写、应用构建、文档分析等工作中的表现，而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码，综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。

AI 翻译 · 中文

Arena 刚刚发布了一个真实世界智能体排行榜，根据 AI 模型完成实际用户任务（而非孤立的基准测试问题）的表现来排名。

该系统追踪智能体使用网络搜索、文件和终端工具的过程，同时用户会要求它们编写代码、构建应用、研究课题、创建文档以及分析文件。

几乎所有传统 AI 基准测试的问题在于，它们测试的是“干净”的任务，而智能体现在要处理的是像编码、研究、文档、网页浏览、文件和终端命令这类“杂乱”的工作。

Agent Arena 试图在真实的工作会话中衡量智能体——在任务进行过程中，用户会纠正它们、批准结果、投诉、下载文件，并暴露出工具故障。

其核心理念是将每个模型选择视为一个测试条件，然后估算该模型相比基准线能在多大程度上改善任务结果。

该排行榜综合了 5 个信号：确认的任务成功、表扬与抱怨、遵循纠正的能力、从终端错误中恢复的能力，以及智能体是否编造出并不存在的工具。

数据量足够大，能够展示真实的行为模式，包含 30 万+ 任务、200 万+ 工具调用，以及智能体生成的 4000 万行代码。

得分综合了任务成功、可引导性、bash 恢复、表扬与抱怨以及工具幻觉——也就是说，模型是根据它是否完成任务、是否能够恢复、是否接受纠正以及是否避免虚假工具调用来评判的。

GPT-5.5 High 以 +10.7% 的净改善率领先，其次是 Claude Opus 4.7 Thinking 的 +9.5% 和 GPT-5.4 High 的 +8.9%。

最有用的细节是，智能体像承受压力的工人一样失败：它们可能留下一部分未完成，却声称工作已完成，或者在受到纠正后语气依然自信但实际上退缩了。

Arena 最大的贡献在于将智能体视为工作系统，在其中模型选择、工具使用、恢复行为以及用户满意度都会被综合考量。

Rohan Paul@rohanpaul_ai · X

精选76导出 Markdown