MiniMax M3 获 vLLM 日零支持，1M 上下文窗口与 MSA 稀疏注意力

MiniMax (official)@MiniMax_AI

精选82

2026-06-13 05:16·8天前

精选理由

M3把1M上下文从‘理论上能做’变成了‘今天就能部署’，MSA稀疏注意力是关键，开源社区和推理框架的深度合作值得关注。

AI 摘要

MiniMax M3 发布，具备前沿编码与智能体能力，原生图像视频输入和计算机使用，1M-token 上下文。核心采用 MSA 稀疏注意力：每个 query 评分 128-token KV 块，仅对 top 块做注意力。vLLM 当日即支持 M3，包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端，并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

AI 翻译 · 中文

在 @vllm_project 的 day-0 版本中，它带来了：

专用的 MSA 预填充/解码内核、支持前缀缓存和分块预填充的 1M 上下文服务，同时在 Hopper 和 Blackwell 上支持 BF16 和 MXFP8 🚀

这才是开放权重（open-weight）的正确做法。

感谢 @vllm_project、@NVIDIAAI、@AIatAMD、@inferact

vLLM🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video input, computer use, and a 1M-token context...

多模态开源生态推理模型发布

在 X 查看原推

MiniMax (official)@MiniMax_AI · X