MiniMax-M2系列:微小激活释放最大真实世界智能
阅读原文· arxiv.orgMiniMax 把激活参数压到 9.8B 却敢喊前沿,整套 design 都是为 agent 场景重做的,搞 agent 的开发者该认真看一眼这个信号。
MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。
我们推出 MiniMax-M2 系列,这是一个混合专家语言模型家族,其核心理念是:小型激活能够释放最大的真实世界智能。旗舰模型 M2 拥有 229.9B 总参数,每个 token 仅激活 98 亿参数。M2 系列从头到尾专为智能体部署而设计,建立在三个组件之上:(i)智能体驱动的数据流水线,可在智能体编码和智能体协作两大场景中生成大规模、可验证的轨迹,每条轨迹都基于可执行工作空间和与产物对齐的奖励;(ii)Forge,一个可扩展的智能体原生强化学习系统,能够适配长周期智能体轨迹,并集成了窗口式先进先出调度、前缀树合并、推理优化,以及一个清晰的训练-推理-智能体解耦架构,同时支持白盒和黑盒智能体;(iii)最新的 M2.7 检查点向自我进化迈出了早期一步——自主调试训练运行并修改自身的脚手架。从 M2 到 M2.7,这种组合将小型激活足迹转化为智能体编码、深度搜索、办公任务和推理基准上的前沿级性能。