M3把1M上下文从‘理论上能做’变成了‘今天就能部署’,MSA稀疏注意力是关键,开源社区和推理框架的深度合作值得关注。
MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。
在 @vllm_project 的 day-0 版本中,它带来了:
专用的 MSA 预填充/解码内核、支持前缀缓存和分块预填充的 1M 上下文服务,同时在 Hopper 和 Blackwell 上支持 BF16 和 MXFP8 🚀
这才是开放权重(open-weight)的正确做法。
感谢 @vllm_project、@NVIDIAAI、@AIatAMD、@inferact