小米用单节点8卡标准GPU在1T MoE模型上跑出1000+ tokens/s,没有走晶圆级或专用芯片的路子,直接把推理成本门槛拉低了一大截,做实时对话和Agent的可以申请免费聊天先上手感受一下。
小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed,首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度,仅用单台标准 8-GPGPU 节点(非 Cerebras 或 Groq 方案)。提供限时免费聊天体验,UltraSpeed API 价格为 3 倍,输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日(PDT),企业可邮件联系 business-mimo@xiaomi.com。
🚀 在1T模型上实现每秒超过1,000个模型token!🚀
我们非常激动地宣布,与@TileRT_AI合作发布小米MiMo-V2.5-Pro-UltraSpeed,首次在1万亿参数模型上突破每秒1,000个模型token的输出速度!
不是像Cerebras那样的晶圆级集成。也不是像Groq那样的纯片上SRAM芯片。我们仅使用一台标准8-GPGPU节点,就在1T MoE模型上实现了1,000 tps。
阅读完整技术深度解析:https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
想体验实时AI的未来吗? 👉 立即申请UltraSpeed:https://platform.xiaomimimo.com/ultraspeed ⏳ 限时访问:基于申请制 · 6月8日 – 6月23日(PDT) 💬 聊天体验:限时完全免费 — 立即尝试极速网页聊天。 ⚡ UltraSpeed API:仅需3倍价格,即可获得约10倍的输出体验提升。 🤝 企业及大规模需求:business-mimo@xiaomi.com