小米把万亿参数 MoE 做到开源且百万上下文,MTP 三层原生集成让推理速度翻三倍,这在国内大厂开源里是第一个真正敢放权重的万亿级模型,做 Agent 的值得认真看看。
小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。
小米 MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro:1T/42B (MoE),1M 上下文 · MiMo-V2.5:310B/15B (MoE),1M 上下文
同时还发布了 100T Token 创造者激励计划,在这申请,赠完即止: https://100t.xiaomimimo.com/
MiMo-V2.5 架构关键点:三件套支撑万亿稀疏 + 百万长文 1. 混合注意力(Hybrid Attention) SWA(局部滑动窗口)与 GA(全局注意力)按 6:1(Pro)或 5:1(V2.5)交错堆叠,滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7,长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。
- 多 Token 预测(MTP,3 层) 原生集成而非外挂的投机解码:训练即推理,3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍,同时还能加速 RL 训练时的 rollout。
- 稀疏 MoE Pro 共 70 层(1 dense + 69 MoE),384 个路由专家,每个 token 激活 8 个,每次只跑 42B 参数。Hidden size 6144,128 个注意力头(GQA:8 个 KV 头)。
训练规模与方法 1. MiMo-V2.5-Pro · Pre-training:27T tokens,FP8 混合精度,原生 32K 序列 · 后训练:SFT → 大规模 Agentic RL → MOPD
- MiMo-V2.5 · Pre-training:~48T tokens(含多模态) · 后训练:同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展
后训练的核心是 MOPD(Multi-Teacher On-Policy Distillation):先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强,再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash,是 V2.5 全系能"既宽又深"的关键。
模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25