小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s，单台 8-GPGPU 节点运

Xiaomi MiMo@XiaomiMiMo

精选82

2026-06-08 22:37·12天前

精选理由

小米用单节点8卡标准GPU在1T MoE模型上跑出1000+ tokens/s，没有走晶圆级或专用芯片的路子，直接把推理成本门槛拉低了一大截，做实时对话和Agent的可以申请免费聊天先上手感受一下。

AI 摘要

小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed，首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度，仅用单台标准 8-GPGPU 节点（非 Cerebras 或 Groq 方案）。提供限时免费聊天体验，UltraSpeed API 价格为 3 倍，输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日（PDT），企业可邮件联系 business-mimo@xiaomi.com。

AI 翻译 · 中文

🚀 在1T模型上实现每秒超过1,000个模型token！🚀

我们非常激动地宣布，与@TileRT_AI合作发布小米MiMo-V2.5-Pro-UltraSpeed，首次在1万亿参数模型上突破每秒1,000个模型token的输出速度！

不是像Cerebras那样的晶圆级集成。也不是像Groq那样的纯片上SRAM芯片。我们仅使用一台标准8-GPGPU节点，就在1T MoE模型上实现了1,000 tps。

阅读完整技术深度解析：https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

想体验实时AI的未来吗？ 👉 立即申请UltraSpeed：https://platform.xiaomimimo.com/ultraspeed ⏳ 限时访问：基于申请制 · 6月8日 – 6月23日（PDT） 💬 聊天体验：限时完全免费 — 立即尝试极速网页聊天。 ⚡ UltraSpeed API：仅需3倍价格，即可获得约10倍的输出体验提升。 🤝 企业及大规模需求：business-mimo@xiaomi.com

推理模型发布部署/工程

在 X 查看原推

Xiaomi MiMo@XiaomiMiMo · X