Mistral 开源 Small 4,支持混合推理与多模态,Agent 任务表现大幅提升
Mistral发布开源权重模型Mistral Small 4,采用119B参数MoE架构(每token激活6.5B参数),支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分,超越Mistral Large 3,但低于gpt-oss-120B等竞品。模型token效率优于同类,幻觉率更低(AA-Omniscience -30分),支持256K上下文窗口,采用Apache 2.0许可证。
Mistral 发布了 Mistral Small 4,这是一个开放权重的模型,具备混合推理和图像输入能力,在 Artificial Analysis Intelligence Index 上得分为 27。
@MistralAI 的 Small 4 是一个 119B 的混合专家模型,每个 token 有 6.5B 活跃参数,支持推理和非推理两种模式。
在推理模式下,Mistral Small 4 在 Artificial Analysis Intelligence Index 上得分为 27,比 Small 3.2(15 分)提升了 12 分,现已成为 Mistral 发布的最智能模型之一,超过了 Mistral Large 3(23 分),并与专有的 Magistral Medium 1.2(27 分)持平。然而,它落后于具有相似总参数量的开放权重同类模型,例如 gpt-oss-120B(high,33 分)、NVIDIA Nemotron 3 Super 120B A12B(推理,36 分)和 Qwen3.5 122B A10B(推理,42 分)。
主要要点:
➤ 单模型中的推理与非推理模式:Mistral Small 4 支持可配置的混合推理,包含推理和非推理两种模式,而不是像 Mistral 此前在 Magistral 模型中那样发布独立的推理变体。在推理模式下,该模型在 Artificial Analysis Intelligence Index 上得分为 27。在非推理模式下,得分为 19,相比前代 Mistral Small 3.2(15 分)提升了 4 分。
➤ 比同等规模同类模型更高效使用 token:在输出约 52M token 时,Mistral Small 4(推理)运行 Artificial Analysis Intelligence Index 所使用的 token 少于其他推理模型,如 gpt-oss-120B(high,约 78M)、NVIDIA Nemotron 3 Super 120B A12B(推理,约 110M)和 Qwen3.5 122B A10B(推理,约 91M)。在非推理模式下,该模型使用约 4M 输出 token。
➤ 原生支持图像输入:Mistral Small 4 是一个多模态模型,能够接受图像输入和文本输入。在我们的多模态评估 MMMU-Pro 上,Mistral Small 4(推理)得分为 57%,领先于 Mistral Large 3(56%),但落后于 Qwen3.5 122B A10B(推理,75%)。gpt-oss-120B 和 NVIDIA Nemotron 3 Super 120B A12B 均不支持图像输入。所有模型仅支持文本输出。
➤ 在真实世界的智能体任务上的改进:Mistral Small 4 在 GDPval-AA 上获得了 871 的 Elo 评分,这是我们基于 OpenAI 的 GDPval 数据集进行的评估,该数据集测试模型在 44 个职业和 9 个主要行业的真实世界任务上的表现,模型在智能体循环中生成文档、电子表格和图表等交付物。这一分数是 Small 3.2(339)的 Elo 的两倍多,接近 Mistral Large 3(880),但落后于 gpt-oss-120B(高,962)、NVIDIA Nemotron 3 Super 120B A12B(推理,1021)和 Qwen3.5 122B A10B(推理,1130)。
➤ 比同类尺寸的同行模型更低的模型幻觉率:Mistral Small 4 在 AA-Omniscience 上得分为 -30,这是我们对知识可靠性和模型幻觉的评估,评分范围从 -100 到 100(越高越好),负分表示错误答案多于正确答案。Mistral Small 4 的得分领先于 gpt-oss-120B(高,-50)、Qwen3.5 122B A10B(推理,-40)和 NVIDIA Nemotron 3 Super 120B A12B(推理,-42)。
关键模型细节:
➤ 上下文窗口:256K 模型 token(相比 Small 3.2 的 128K 有所提升)
➤ 定价:每 100 万输入/输出模型 token $0.15/$0.6
➤ 可用性:仅限 Mistral 自有 API。在原生 FP8 精度下,Mistral Small 4 的 119B 参数需要约 119GB 空间来自托管权重(超过单张 NVIDIA H100 的 80GB HBM3 显存)
➤ 模态:图像和文本输入,仅文本输出
➤ 许可协议:Apache 2.0 许可证