MiniMax即将发布M3模型。其核心架构为基于GQA的动态块稀疏注意力机制,通过轻量索引分支筛选相关token块进行稀疏注意力计算。性能方面,在1M token上下文窗口下,Prefill速度相比M2提升9.7倍,解码速度提升15.6倍。该设计旨在大幅降低处理超长上下文的算力成本,使百万token级别的Agent应用得以更高效落地。
兄弟们,MiniMax M3 要来了~~~
MiniMax AI工程负责人Skyler Miao今天只发了一句"Something BIG is coming"。
配图里藏着M3模型的核心架构:基于GQA的动态块稀疏注意力。
它先用一个轻量索引分支快速扫完整上下文,选出最相关的token块,再只对这些块做真正的Sparse Attention(稀疏注意力)。
结果在1M token上下文上,Prefill (预填充)速度比M2快9.7倍,解码速度快15.6倍。
以前大家卷长上下文,算力成本像天文数字。现在MiniMax直接把这个天花板砸出一个口子,让百万token级别的Agent任务真正能落地。
长上下文不再是"能跑就行",而是开始变得又快又省。
MiniMax M3一旦发布,DeepSeek V4之外,又多了一个能把1M上下文真正玩转的选手。