小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token
小米把万亿模型推上 1000 tokens/s,不是纸面速度,而是模型与系统深耦合的结果,对实时推理和编程智能体是真正可落地的信号。限时申请有点可惜,但开源部分值得关注。
小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
MiMo-V2.5-Pro-UltraSpeed:将 1T 参数模型生成速度推至 1000 TPS
1. 小米 MiMo-V2.5-Pro-UltraSpeed:速度即终极优势
从内燃机时代第一辆轰鸣的赛车到突破音障的声爆,人类对速度的渴望深植于我们的 DNA 之中。AI 推理的速度同样如此——它定义了智能本身的边界。当模型足够快时,它就不再是你需要等待的工具,而成为你思维的延伸:实时响应、瞬间迭代、无缝协作。
今天,我们激动地宣布与 TileRT 合作发布小米 MiMo-V2.5-Pro-UltraSpeed,首次在 1 万亿参数模型上突破 1000 tokens/s 的解码速度!
2. 限时开放·申请制使用
MiMo-V2.5-Pro-UltraSpeed API 同步上线,限时促销价格——为 MiMo-V2.5-Pro 成本的 3 倍,但生成速度提升约 10 倍!3 倍的价格,10 倍的输出体验。(仅限 API;不支持 Token 套餐。)
由于高速推理资源有限,MiMo-V2.5-Pro-UltraSpeed 将采取申请制、限时窗口开放。获批用户可在试用期内访问 API,开放时间仅为 2026 年 6 月 9 日至 6 月 23 日 23:59(北京时间,UTC+8 / 08:59 PDT)。
如何申请
API 平台:platform.xiaomimimo.com/ultraspeed。试用名额有限——提交申请不保证获批。我们将优先支持具有真实业务需求的企业和专业开发者。如需使用标准模型,请关注 MiMo-V2.5 模型系列。如需与 UltraSpeed 模型开展深度业务合作,请联系 business-mimo@xiaomi.com。
聊天体验(试用期间免费)
获批用户将获得两周内有效的免费聊天权限。入口:ultraspeed.xiaomimimo.com
为确保资源受限下的质量与公平性,适用以下规则:每个账户每天最多可进入队列10次;每次会话时长上限为30分钟;会话空闲超过5分钟将自动释放。
3. 1000 tokens/s:不仅是快,更是范式变革
在万亿参数规模下,突破1000 tps远不止是打字速度更快——它从根本上颠覆了AI应用的范式。
首先,速度本身开始转化为智能。以往面对难题时,你只能“等待一个答案并祈祷它正确”。现在,在同一时钟时间内,模型可以并行运行数十条推理路径(Best-of-N / 树搜索),在后台自动验证和自我纠错——用原始速度生成思想深度,直接提升推理质量。
其次,它彻底释放了编程智能体的生产力上限。过去,让AI写代码意味着开发者痛苦地守在屏幕前,受制于推理延迟。在1000 tps下,代码生成速度和生产效率经历了范式层面的加速。
最重要的是,万亿参数模型现在可以进入实时决策回路。毫秒级的“思考-响应”循环使1T旗舰模型能够无缝接入时序敏感场景——高频量化交易信号生成、即时反欺诈拦截、智能竞价以及实时交互对话。而当这种能力被用于生死攸关的手术辅助和医学影像分析时,AI速度就不再仅仅是效率指标——它成为与死亡赛跑的筹码。在手术台上,AI每为病灶分析和风险预测节省一秒钟,就给外科医生多一分操作空间。这加深了我们的信念:速度的终极意义不只是提升生产力,而是让技术帮助人类更好地生活。
4. 极致的模型-系统协同设计
在旗舰级万亿参数模型上实现每秒1000+ token的生成速度,并非单一技术的突破——而是MiMo模型团队与TileRT系统团队深度协作、极限协同设计的成果。业界目前实现类似极致速度通常依赖专用硬件——Cerebras的晶圆级集成或Groq的纯片上SRAM定制架构。我们选择了不同的路径:仅通过模型与系统的协同设计,在通用GPU上实现了更令人瞩目的推理速度。
在模型端,我们针对通用硬件的带宽瓶颈应用了FP4量化,大幅缩小模型体积、降低内存访问开销;同时引入了DFlash,这是一种基于块级掩码并行预测的高效推测解码方法,显著增加了每次验证步骤中接受的token长度。在系统端,TileRT完美适配了这些算法的动态特性,提供了定制化的编译引擎和计算内核,专门针对新型量化与推测解码流水线进行了优化。通过这种极致协同设计,我们仅使用单个标准8-GPU通用节点,就从万亿参数模型实现了每秒1000+ token的输出。
4.1 FP4量化
在万亿参数规模下,传统的8位(FP8/INT8)甚至16位推理会带来难以承受的内存占用和带宽压力。降低参数的位宽直接有助于提升解码速度。因此,我们采用了经过广泛验证、几乎无损的FP4(MXFP4)量化格式[1]。
然而,在整个模型上简单应用FP4会导致复杂推理、逻辑和代码生成能力下降。鉴于小米MiMo-V2.5-Pro的MoE(混合专家)架构——其中专家层占绝大多数参数并且对量化容忍度最高——我们选择性地仅将MoE专家层量化到FP4,同时保持所有其他模块的原始精度。通过FP4 QAT(量化感知训练),我们大幅减小模型大小并最大化硬件带宽利用率,同时保持模型的整体能力与原始模型基本持平,如下所示:

4.2 DFlash推测解码
传统的推测解码依赖一个小型草稿模型来"猜测"后续的模型token,然后由大模型进行验证。这将对自回归生成(每次前向传播产生1个token)转为并行多token生成,验证阶段的拒绝采样确保了无损的输出质量。然而,其瓶颈在于草稿模型的质量决定了接受率,而更强的草稿模型会带来更高的计算开销——这是一个根本性的矛盾。
为了打破这一僵局,我们采用了DFlash,这是学术界提出的一种创新的块级掩码并行预测方法[2]:草稿模型在单次前向传播中填充整个掩码位置块,从根本上消除了"自回归草稿"的串行约束。
我们将此方法部署在MiMo-V2.5-Pro上,并针对万亿参数规模的MoE和长上下文场景进行了定制优化。通过使用Muon二阶优化器和模型自蒸馏,我们确保紧凑的掩码块仍能提供理想的接受率,同时将草稿阶段的开销压缩到接近其理论最小值:
- 草稿模型独占使用滑动窗口注意力(SWA),自然与MiMo-V2系列的SWA设计一致。这消除了对完整前缀的依赖,将每次预测的计算量从与上下文长度线性相关降低为常数。
- 在训练过程中,掩码信号采样被下推到GPU本地分片,使得单个序列能够一步生成数万个涵盖不同上下文位置的独立训练信号——这与MiMo-V2系列的长上下文能力一致,同时避免了跨设备通信开销。
在结果方面,我们的并行预测投机解码在高价值智能体和编码场景中实现了显著的接受长度提升,意味着大模型每轮验证可以“一口气”确认更多内容。此外,我们将块大小限制为8,以减少验证开销并增加并发性,使得高接受长度能够直接转化为高推理吞吐量:
| 场景 | 接受长度 |
|---|---|
| 编码 | 6.30 |
| 数学 / 推理 | 5.56 |
| 智能体 | 4.29 |
在编码场景中,我们实现了平均接受长度6.30,部分样本达到最高7.14——这意味着每轮验证的8个草稿token中有6–7个被接受。草稿模型保持轻量级,同时将接受率推至能够带来实际端到端收益的水平。我们还观察到,在语义更分散、不确定性更高的通用对话场景中,当前的接受率还不够高。我们正在持续优化算法,以探索更高的泛化上限。
4.3 TileRT 超低延迟推理内核 / 系统
如果说MiMo的算法创新解除了千亿和万亿参数模型的带宽束缚,那么TileRT推理系统则将商用GPU的物理潜力压榨到微秒级的极致。
在 1000 tokens/s 的运行频率下,每个算子的生命周期被压缩到微秒级,传统推理系统的“算子边界”成为核心瓶颈——每次算子启动、硬件同步和全局内存往返都会在微秒尺度上割裂执行流,暴露出可见的“执行间隙”。
TileRT 的范式级执行模型革命
作为超低延迟推理的基础设施,TileRT 引入了一种全新的执行模型,从根本上消除了算子边界带来的执行间隙:
- 持久引擎内核:完全抛弃了传统的逐算子启动范式,让整个计算流水线持久驻留在 GPU 内持续流动。这使得全流水线连续预取成为可能——当前 Tile 仍在 Tensor Cores 上计算时,后续数据已在内存层级中流动,实现数据搬运与计算的高度重叠。
- Warp 专门化(异构流水线协作):在 Tile 层面,通信、数据搬运和张量计算以更细粒度进行物理分解。打破了同构锁步执行模型,不同的 Warp(线程组)乃至整个 GPU 上的异构执行域独立运行但又精确协同——将 GPU 转变为持续流动、精准编排的异构执行系统。
微秒级软硬件深度协同设计
当底层执行模型将硬件性能推向极限时,纯运行时优化便触及了物理边界。在此基础之上,TileRT 系统团队与小米 MiMo 团队进行了深度的技术共创,打破了传统软件层的边界。为了使模型行为与这条超低延迟的执行管线完美对齐,模型层最终对 MoE 专家采用了混合 FP4 量化策略,并在万亿参数架构上部署了经过 SWA 对齐的 DFlash 推测解码。TileRT 与这些算法特性及量化方案紧密耦合,提供了定制化的编译引擎与计算内核。双方团队基于硬件物理特性做出了深刻的联合工程权衡,确保执行压力在硬件边界内平稳收敛。
每秒 1000 个模型 token 的诞生并非单点优化的偶然,而是世界级系统基础设施与极致算法模型深度相向、协同演进的必然结果。
TileRT 是一个前沿系统架构团队,专注于下一代 AI 基础设施与超低延迟推理。该团队致力于在生产环境中为前沿大模型实现毫秒级实时响应,以全新的运行时架构打破传统存储计算壁垒。团队构思并实现了一种范式级的执行模型。通过持久化内核、瓦片流水线与异构协作方面的全栈突破,TileRT 在复杂异构生态中实现了极致的计算利用率。作为核心基础设施推动者,该团队积极与行业领先合作伙伴开展软硬件协同设计,为渴求“终极速度”的自主体智能时代构建高性能计算基座。更多 TileRT 技术细节请访问:tilert.ai/blog/breaking-1000-tps.html
5. 更多演示


6. 开源与展望
- 我们已在 HuggingFace 上开源了 MiMo-V2.5-Pro-FP4-DFlash 检查点,包括 FP4 量化权重和 DFlash 模型参数。欢迎社区使用和反馈:huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
- MiMo-V2.5 对 UltraSpeed 的支持即将推出——敬请期待。
MiMo × TileRT——极致的模型-系统协同设计,为万亿参数模型提供 1000 tps 的输出速度。
[1] OCP 微缩放格式(MX)v1.0 规范:opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
[2] DFlash:arxiv.org/abs/2602.06036
