Artificial Analysis 发布 APEX-Agents-AA 排行榜,基于 Mercor 的 APEX-Agents 基准评估 AI 代理在长周期专业任务(投资银行、管理咨询、公司法)的表现。测试通过 Stirrup 框架和 MCP 工具执行 452 个任务,涵盖消息回复、文档处理等。结果显示 GPT-5.4 以 33.3% 领先,Claude Opus 4.6 (33.0%) 和 Gemini 3.1 Pro Preview (32%) 紧随其后,三强竞争激烈。评分采用 LLM 评判和 pass@1 标准。