Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。