# 小米开源MiMo-V2.5系列大模型

- 来源：meng shao (@shao__meng)
- 发布时间：2026-04-28 09:45
- AIHOT 分数：75
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmoi4sz7t00o3sle9x1vcsku2
- 原文链接：https://x.com/shao__meng/status/2048941626253529403

## 精选理由

小米把万亿参数 MoE 做到开源且百万上下文，MTP 三层原生集成让推理速度翻三倍，这在国内大厂开源里是第一个真正敢放权重的万亿级模型，做 Agent 的值得认真看看。

## AI 摘要

小米正式开源MiMo-V2.5系列模型，包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro，以及支持多模态代理的310B参数MoE模型MiMo-V2.5，两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术，以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式，通过多教师策略蒸馏提升模型综合能力。同时，小米推出100T Token的创造者激励计划，为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

## 正文

小米 MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro：1T/42B (MoE)，1M 上下文 · MiMo-V2.5：310B/15B (MoE)，1M 上下文

同时还发布了 100T Token 创造者激励计划，在这申请，赠完即止： https://100t.xiaomimimo.com/

MiMo-V2.5 架构关键点：三件套支撑万亿稀疏 + 百万长文 1. 混合注意力（Hybrid Attention） SWA（局部滑动窗口）与 GA（全局注意力）按 6:1（Pro）或 5:1（V2.5）交错堆叠，滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7，长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。

2. 多 Token 预测（MTP，3 层） 原生集成而非外挂的投机解码：训练即推理，3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍，同时还能加速 RL 训练时的 rollout。

3. 稀疏 MoE Pro 共 70 层（1 dense + 69 MoE），384 个路由专家，每个 token 激活 8 个，每次只跑 42B 参数。Hidden size 6144，128 个注意力头（GQA：8 个 KV 头）。

训练规模与方法 1. MiMo-V2.5-Pro · Pre-training：27T tokens，FP8 混合精度，原生 32K 序列 · 后训练：SFT → 大规模 Agentic RL → MOPD

2. MiMo-V2.5 · Pre-training：~48T tokens（含多模态） · 后训练：同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展

后训练的核心是 MOPD（Multi-Teacher On-Policy Distillation）：先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强，再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash，是 V2.5 全系能"既宽又深"的关键。

模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

### 引用推文

> Fuli Luo：Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). Oh and one more thing - we're giving dev...