OpenAI 发布 GPT-5.4 mini/nano,性价比突出且评测数据详实,nano 性能超越同级竞品。
OpenAI发布GPT-5.4 mini与nano轻量模型,保留多档推理能力与400K上下文窗口,价格降至$0.20/$1.25每百万token。基准测试显示,GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview,但幻觉率较高且token消耗量大。得益于极低单价,nano在Intelligence Index测试中的有效成本反而低于竞品,展现出优秀的性价比优势。
OpenAI 发布了 GPT-5.4 mini 和 nano,它们是 GPT-5.4 的更便宜变体,具有相同的推理模式。GPT-5.4 nano 最为突出,在得分上领先于 Claude Haiku 4.5 和 Gemini 3.1 Flash-Lite Preview,且每模型 token 定价更低。
@OpenAI 发布了 GPT-5.4 mini(xhigh, 48)和 nano(xhigh, 44),这是自 GPT-5 以来首次 mini 和 nano 更新。两者都是多模态模型,支持图像输入,并拥有 400K 模型 token 的上下文窗口。它们支持与 GPT-5.4 相同的推理投入等级(xhigh、high、medium、low、none),定价则显著更低:mini 为每 100 万输入/输出模型 token $0.75/$4.50,nano 为 $0.20/$1.25,相比之下 GPT-5.4 为 $2.50/$15。我们针对三种推理变体对这些模型进行了评估:xhigh、medium、none。尽管这两个模型在最高推理投入下比同类模型更智能,但它们也更冗长,在运行 Intelligence Index 时使用了超过 2 亿个输出模型 token,甚至高于部分前沿模型。
来源:X:Artificial Analysis (@ArtificialAnlys)
来自最高推理变体的关键基准测试要点: ➤ GPT-5.4 nano(xhigh,44)从 GPT-5 nano(high,27)提升了 18 个百分点,所有评估项目均有改善。与 Claude Haiku 4.5(推理,37)和 Gemini 3.1 Flash-Lite Preview(34)相比,GPT-5.4 nano 在 τ²-Bench(81% 对 55% 和 31%)、IFBench(76% 对 54% 和 77%)以及 TerminalBench(42% 对 27% 和 24%)上领先 ➤ GPT-5.4 mini(xhigh,48)比 GPT-5 mini(high,41)提高了 7 个百分点,在大多数评估项目中均有提升。与 Gemini 3 Flash Preview(推理,46)和 Claude Sonnet 4.6(自适应推理,最大努力,52)相比,GPT-5.4 mini 在 TerminalBench(52% 对 39% 和 53%)和 CritPt(10% 对 9% 和 3%)上领先 ➤ 两款模型在 AA-Omniscience 上的表现均不及同级模型,主要原因是模型幻觉率较高。GPT-5.4 mini 得分为 -18.7,模型幻觉率为 90%,远落后于 Claude Sonnet 4.6(自适应推理,最大努力,+12.4,模型幻觉率 46%)和 Gemini 3 Flash Preview(推理,+11.6,模型幻觉率 92% 但准确率为 54%)。GPT-5.4 nano 得分为 -29.6,模型幻觉率为 74%,落后于 Claude Haiku 4.5(推理,-4.2,模型幻觉率 26%)和 Gemini 3.1 Flash-Lite Preview(-15.5,82%)。两款 GPT-5.4 模型都倾向于回答远多于 Claude Haiku 4.5 和 Claude Sonnet 4.6 的问题,而非选择弃答,这导致了更高的模型幻觉率 ➤ 两款模型在智能体性能上表现强劲。GPT-5.4 mini 在 GDPval-AA(智能体真实世界工作任务)上得分为 1405,领先于 Gemini 3 Flash Preview(推理,1191),但落后于 Claude Sonnet 4.6(自适应推理,最大努力,1633)。GPT-5.4 nano 得分为 1169,接近 Claude Haiku 4.5(推理,1173),并大幅领先于 Gemini 3.1 Flash-Lite Preview(944) ➤ 在 xhigh 推理尽力程度下,两款模型的模型 token 用量均高于其他采用最高推理尽力程度的同级模型。GPT-5.4 mini 运行智能指数使用了 2.35 亿输出模型 token,约为 GPT-5 mini(high,6900 万)的 3.4 倍,且高于 Claude Sonnet 4.6(自适应推理,最大努力,1.98 亿),尽管得分低了 4 分。GPT-5.4 nano 使用了 2.1 亿输出模型 token,约为 Claude Haiku 4.5(推理,8700 万)的 2.4 倍,以及 Gemini 3.1 Flash-Lite Preview(5300 万)的约 4 倍 ➤ 运行智能指数的有效成本反映了更高的模型 token 用量。GPT-5.4 mini(xhigh)成本约为 1,406 美元,而 Gemini 3 Flash Preview(推理)约为 278 美元,Claude Sonnet 4.6(自适应推理,最大努力)约为 3,959 美元。GPT-5.4 nano(xhigh)成本约为 376 美元,而 Claude Haiku 4.5(推理)约为 584 美元
)以及 Gemini 3.1 Flash-Lite Preview 约 94 美元。GPT-5.4 nano 在有效成本基础上比 Claude Haiku 4.5 更便宜,尽管使用了约 2.4 倍更多的模型 token,原因是其价格显著更低。总体而言,GPT-5.4 nano 是突出产品,在 Intelligence vs. Cost to Run Intelligence Index 权衡上提供了比同类产品以及 GPT-5.4 mini 更好的表现。