meng shao@shao__meng

精选75

2026-04-28 09:45·66天前

精选理由

小米把万亿参数 MoE 做到开源且百万上下文，MTP 三层原生集成让推理速度翻三倍，这在国内大厂开源里是第一个真正敢放权重的万亿级模型，做 Agent 的值得认真看看。

AI 摘要

小米正式开源MiMo-V2.5系列模型，包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro，以及支持多模态代理的310B参数MoE模型MiMo-V2.5，两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术，以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式，通过多教师策略蒸馏提升模型综合能力。同时，小米推出100T Token的创造者激励计划，为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

AI 翻译 · 中文

小米 MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro：1T/42B (MoE)，1M 上下文 · MiMo-V2.5：310B/15B (MoE)，1M 上下文

同时还发布了 100T Token 创造者激励计划，在这申请，赠完即止： https://100t.xiaomimimo.com/

MiMo-V2.5 架构关键点：三件套支撑万亿稀疏 + 百万长文 1. 混合注意力（Hybrid Attention） SWA（局部滑动窗口）与 GA（全局注意力）按 6:1（Pro）或 5:1（V2.5）交错堆叠，滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7，长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。

多 Token 预测（MTP，3 层）原生集成而非外挂的投机解码：训练即推理，3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍，同时还能加速 RL 训练时的 rollout。

稀疏 MoE Pro 共 70 层（1 dense + 69 MoE），384 个路由专家，每个 token 激活 8 个，每次只跑 42B 参数。Hidden size 6144，128 个注意力头（GQA：8 个 KV 头）。

训练规模与方法 1. MiMo-V2.5-Pro · Pre-training：27T tokens，FP8 混合精度，原生 32K 序列 · 后训练：SFT → 大规模 Agentic RL → MOPD

MiMo-V2.5 · Pre-training：~48T tokens（含多模态） · 后训练：同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展

后训练的核心是 MOPD（Multi-Teacher On-Policy Distillation）：先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强，再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash，是 V2.5 全系能"既宽又深"的关键。

模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

meng shao@shao__meng · X

精选75导出 Markdown