Artificial Analysis@ArtificialAnlys

精选

2026-03-26 13:46·98天前

精选理由

OpenAI 发布 GPT-5.4 mini/nano，性价比突出且评测数据详实，nano 性能超越同级竞品。

AI 摘要

OpenAI发布GPT-5.4 mini与nano轻量模型，保留多档推理能力与400K上下文窗口，价格降至$0.20/$1.25每百万token。基准测试显示，GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview，但幻觉率较高且token消耗量大。得益于极低单价，nano在Intelligence Index测试中的有效成本反而低于竞品，展现出优秀的性价比优势。

AI 翻译 · 中文

OpenAI 发布了 GPT-5.4 mini 和 nano，它们是 GPT-5.4 的更便宜变体，具有相同的推理模式。GPT-5.4 nano 最为突出，在得分上领先于 Claude Haiku 4.5 和 Gemini 3.1 Flash-Lite Preview，且每模型 token 定价更低。

@OpenAI 发布了 GPT-5.4 mini（xhigh, 48）和 nano（xhigh, 44），这是自 GPT-5 以来首次 mini 和 nano 更新。两者都是多模态模型，支持图像输入，并拥有 400K 模型 token 的上下文窗口。它们支持与 GPT-5.4 相同的推理投入等级（xhigh、high、medium、low、none），定价则显著更低：mini 为每 100 万输入/输出模型 token $0.75/$4.50，nano 为 $0.20/$1.25，相比之下 GPT-5.4 为 $2.50/$15。我们针对三种推理变体对这些模型进行了评估：xhigh、medium、none。尽管这两个模型在最高推理投入下比同类模型更智能，但它们也更冗长，在运行 Intelligence Index 时使用了超过 2 亿个输出模型 token，甚至高于部分前沿模型。

来源：X：Artificial Analysis (@ArtificialAnlys)

来自最高推理变体的关键基准测试要点： ➤ GPT-5.4 nano（xhigh，44）从 GPT-5 nano（high，27）提升了 18 个百分点，所有评估项目均有改善。与 Claude Haiku 4.5（推理，37）和 Gemini 3.1 Flash-Lite Preview（34）相比，GPT-5.4 nano 在 τ²-Bench（81% 对 55% 和 31%）、IFBench（76% 对 54% 和 77%）以及 TerminalBench（42% 对 27% 和 24%）上领先 ➤ GPT-5.4 mini（xhigh，48）比 GPT-5 mini（high，41）提高了 7 个百分点，在大多数评估项目中均有提升。与 Gemini 3 Flash Preview（推理，46）和 Claude Sonnet 4.6（自适应推理，最大努力，52）相比，GPT-5.4 mini 在 TerminalBench（52% 对 39% 和 53%）和 CritPt（10% 对 9% 和 3%）上领先 ➤ 两款模型在 AA-Omniscience 上的表现均不及同级模型，主要原因是模型幻觉率较高。GPT-5.4 mini 得分为 -18.7，模型幻觉率为 90%，远落后于 Claude Sonnet 4.6（自适应推理，最大努力，+12.4，模型幻觉率 46%）和 Gemini 3 Flash Preview（推理，+11.6，模型幻觉率 92% 但准确率为 54%）。GPT-5.4 nano 得分为 -29.6，模型幻觉率为 74%，落后于 Claude Haiku 4.5（推理，-4.2，模型幻觉率 26%）和 Gemini 3.1 Flash-Lite Preview（-15.5，82%）。两款 GPT-5.4 模型都倾向于回答远多于 Claude Haiku 4.5 和 Claude Sonnet 4.6 的问题，而非选择弃答，这导致了更高的模型幻觉率 ➤ 两款模型在智能体性能上表现强劲。GPT-5.4 mini 在 GDPval-AA（智能体真实世界工作任务）上得分为 1405，领先于 Gemini 3 Flash Preview（推理，1191），但落后于 Claude Sonnet 4.6（自适应推理，最大努力，1633）。GPT-5.4 nano 得分为 1169，接近 Claude Haiku 4.5（推理，1173），并大幅领先于 Gemini 3.1 Flash-Lite Preview（944） ➤ 在 xhigh 推理尽力程度下，两款模型的模型 token 用量均高于其他采用最高推理尽力程度的同级模型。GPT-5.4 mini 运行智能指数使用了 2.35 亿输出模型 token，约为 GPT-5 mini（high，6900 万）的 3.4 倍，且高于 Claude Sonnet 4.6（自适应推理，最大努力，1.98 亿），尽管得分低了 4 分。GPT-5.4 nano 使用了 2.1 亿输出模型 token，约为 Claude Haiku 4.5（推理，8700 万）的 2.4 倍，以及 Gemini 3.1 Flash-Lite Preview（5300 万）的约 4 倍 ➤ 运行智能指数的有效成本反映了更高的模型 token 用量。GPT-5.4 mini（xhigh）成本约为 1,406 美元，而 Gemini 3 Flash Preview（推理）约为 278 美元，Claude Sonnet 4.6（自适应推理，最大努力）约为 3,959 美元。GPT-5.4 nano（xhigh）成本约为 376 美元，而 Claude Haiku 4.5（推理）约为 584 美元

）以及 Gemini 3.1 Flash-Lite Preview 约 94 美元。GPT-5.4 nano 在有效成本基础上比 Claude Haiku 4.5 更便宜，尽管使用了约 2.4 倍更多的模型 token，原因是其价格显著更低。总体而言，GPT-5.4 nano 是突出产品，在 Intelligence vs. Cost to Run Intelligence Index 权衡上提供了比同类产品以及 GPT-5.4 mini 更好的表现。

Artificial Analysis@ArtificialAnlys · X

精选导出 Markdown