Artificial Analysis@ArtificialAnlys

精选

2026-03-20 19:48·104天前

精选理由

Mistral 开源 Small 4，支持混合推理与多模态，Agent 任务表现大幅提升

AI 摘要

Mistral发布开源权重模型Mistral Small 4，采用119B参数MoE架构（每token激活6.5B参数），支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分，超越Mistral Large 3，但低于gpt-oss-120B等竞品。模型token效率优于同类，幻觉率更低（AA-Omniscience -30分），支持256K上下文窗口，采用Apache 2.0许可证。

AI 翻译 · 中文

Mistral 发布了 Mistral Small 4，这是一个开放权重的模型，具备混合推理和图像输入能力，在 Artificial Analysis Intelligence Index 上得分为 27。

@MistralAI 的 Small 4 是一个 119B 的混合专家模型，每个 token 有 6.5B 活跃参数，支持推理和非推理两种模式。

在推理模式下，Mistral Small 4 在 Artificial Analysis Intelligence Index 上得分为 27，比 Small 3.2（15 分）提升了 12 分，现已成为 Mistral 发布的最智能模型之一，超过了 Mistral Large 3（23 分），并与专有的 Magistral Medium 1.2（27 分）持平。然而，它落后于具有相似总参数量的开放权重同类模型，例如 gpt-oss-120B（high，33 分）、NVIDIA Nemotron 3 Super 120B A12B（推理，36 分）和 Qwen3.5 122B A10B（推理，42 分）。

主要要点：

➤ 单模型中的推理与非推理模式：Mistral Small 4 支持可配置的混合推理，包含推理和非推理两种模式，而不是像 Mistral 此前在 Magistral 模型中那样发布独立的推理变体。在推理模式下，该模型在 Artificial Analysis Intelligence Index 上得分为 27。在非推理模式下，得分为 19，相比前代 Mistral Small 3.2（15 分）提升了 4 分。

➤ 比同等规模同类模型更高效使用 token：在输出约 52M token 时，Mistral Small 4（推理）运行 Artificial Analysis Intelligence Index 所使用的 token 少于其他推理模型，如 gpt-oss-120B（high，约 78M）、NVIDIA Nemotron 3 Super 120B A12B（推理，约 110M）和 Qwen3.5 122B A10B（推理，约 91M）。在非推理模式下，该模型使用约 4M 输出 token。

➤ 原生支持图像输入：Mistral Small 4 是一个多模态模型，能够接受图像输入和文本输入。在我们的多模态评估 MMMU-Pro 上，Mistral Small 4（推理）得分为 57%，领先于 Mistral Large 3（56%），但落后于 Qwen3.5 122B A10B（推理，75%）。gpt-oss-120B 和 NVIDIA Nemotron 3 Super 120B A12B 均不支持图像输入。所有模型仅支持文本输出。

➤ 在真实世界的智能体任务上的改进：Mistral Small 4 在 GDPval-AA 上获得了 871 的 Elo 评分，这是我们基于 OpenAI 的 GDPval 数据集进行的评估，该数据集测试模型在 44 个职业和 9 个主要行业的真实世界任务上的表现，模型在智能体循环中生成文档、电子表格和图表等交付物。这一分数是 Small 3.2（339）的 Elo 的两倍多，接近 Mistral Large 3（880），但落后于 gpt-oss-120B（高，962）、NVIDIA Nemotron 3 Super 120B A12B（推理，1021）和 Qwen3.5 122B A10B（推理，1130）。

➤ 比同类尺寸的同行模型更低的模型幻觉率：Mistral Small 4 在 AA-Omniscience 上得分为 -30，这是我们对知识可靠性和模型幻觉的评估，评分范围从 -100 到 100（越高越好），负分表示错误答案多于正确答案。Mistral Small 4 的得分领先于 gpt-oss-120B（高，-50）、Qwen3.5 122B A10B（推理，-40）和 NVIDIA Nemotron 3 Super 120B A12B（推理，-42）。

关键模型细节：

➤ 上下文窗口：256K 模型 token（相比 Small 3.2 的 128K 有所提升）

➤ 定价：每 100 万输入/输出模型 token $0.15/$0.6

➤ 可用性：仅限 Mistral 自有 API。在原生 FP8 精度下，Mistral Small 4 的 119B 参数需要约 119GB 空间来自托管权重（超过单张 NVIDIA H100 的 80GB HBM3 显存）

➤ 模态：图像和文本输入，仅文本输出

➤ 许可协议：Apache 2.0 许可证

Artificial Analysis@ArtificialAnlys · X

精选导出 Markdown