Berryxia.AI@berryxia

2026-05-27 08:24·37天前

AI 摘要

MiniMax即将发布M3模型。其核心架构为基于GQA的动态块稀疏注意力机制，通过轻量索引分支筛选相关token块进行稀疏注意力计算。性能方面，在1M token上下文窗口下，Prefill速度相比M2提升9.7倍，解码速度提升15.6倍。该设计旨在大幅降低处理超长上下文的算力成本，使百万token级别的Agent应用得以更高效落地。

兄弟们，MiniMax M3 要来了~~~

MiniMax AI工程负责人Skyler Miao今天只发了一句"Something BIG is coming"。

配图里藏着M3模型的核心架构：基于GQA的动态块稀疏注意力。

它先用一个轻量索引分支快速扫完整上下文，选出最相关的token块，再只对这些块做真正的Sparse Attention（稀疏注意力）。

结果在1M token上下文上，Prefill （预填充）速度比M2快9.7倍，解码速度快15.6倍。

以前大家卷长上下文，算力成本像天文数字。现在MiniMax直接把这个天花板砸出一个口子，让百万token级别的Agent任务真正能落地。

长上下文不再是"能跑就行"，而是开始变得又快又省。

MiniMax M3一旦发布，DeepSeek V4之外，又多了一个能把1M上下文真正玩转的选手。