小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。
最近大家看到小米的MiMo 模型的降价! 我今天看了一下用了120 w 差不多花了3块多钱!
正好看到小米MiMo团队罗福莉分享的一篇技术博客。
V2.5系列刚把API价格降下来,背后其实是他们把推理系统彻底重构了一遍。
他们用的Hybrid Sliding Window Attention架构,能把KVCache存储压缩到全注意力的约1/7。
但罗福莉他们很清楚,架构优势在真实生产流量里不会自动变现。
于是团队重新设计了KVCache管理、层级缓存和prefix-cache tree,针对SWA特有的缓存难题做了专项处理,同时深度优化了调度策略和Prefill/Decode流水线。
在真实生产流量验证后,有效KVCache容量提升了接近5倍,主流框架下的服务端缓存命中率稳定在93%到95%。
再叠加MoE配置调优和多模态推理优化,才真正把长上下文推理成本打下来,支撑了这次降价。
这恰巧说明,好架构只是天花板,把它真正落地成可规模化、低成本的生产能力,才是决定模型性价比的关键。