Berryxia.AI@berryxia

2026-05-30 23:54·33天前

AI 摘要

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构，理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地，团队重新设计了KVCache管理、层级缓存和prefix-cache tree，并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证，有效KVCache容量提升了近5倍，服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用，显著降低了长上下文推理成本，从而支撑了本次降价。

最近大家看到小米的MiMo 模型的降价！我今天看了一下用了120 w 差不多花了3块多钱！

正好看到小米MiMo团队罗福莉分享的一篇技术博客。

V2.5系列刚把API价格降下来，背后其实是他们把推理系统彻底重构了一遍。

他们用的Hybrid Sliding Window Attention架构，能把KVCache存储压缩到全注意力的约1/7。

但罗福莉他们很清楚，架构优势在真实生产流量里不会自动变现。

于是团队重新设计了KVCache管理、层级缓存和prefix-cache tree，针对SWA特有的缓存难题做了专项处理，同时深度优化了调度策略和Prefill/Decode流水线。

在真实生产流量验证后，有效KVCache容量提升了接近5倍，主流框架下的服务端缓存命中率稳定在93%到95%。

再叠加MoE配置调优和多模态推理优化，才真正把长上下文推理成本打下来，支撑了这次降价。

这恰巧说明，好架构只是天花板，把它真正落地成可规模化、低成本的生产能力，才是决定模型性价比的关键。

Fuli LuoInference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiaomi.com/blog/mimo-v2-5-inference The V2.5...

推理行业动态部署/工程

在 X 查看原推

Berryxia.AI@berryxia · X

51导出 Markdown