小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
阅读原文· ithome.com小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。
IT之家 5 月 28 日消息,小米 MiMo 官方昨日宣布,小米 MiMo-V2.5 系列 API 永久降价,相比原始 API 定价,新定价最高降幅可达 99%,且不再区分上下文窗口长度。
小米 MiMo 负责人罗福莉随后在 X 平台发文,谈到了 MiMo API 降价的技术原因,IT之家附罗福莉原文翻译如下:
MiMo API 价格下调的背后:
最高降幅可达 99%,针对的是输入(缓存命中)。核心原因在于我们的推理框架现在支持针对 SWA 的分层 KV 缓存优化。生产推理引擎测试表明,该优化将缓存的 Token 容量提升了 5 倍,相当于降低了 80% 的缓存成本。再结合 Hybrid 模型中多个 Full Attention 模块之间的缓存读取重叠(Cache Read Overlap),实际成本得到了进一步降低。
输入(未命中缓存)和输出的价格也降低了约 60% 至 80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比(70 层的 MiMo-V2.5-Pro 的 prefill 计算量大致相当于一个 10 层的 GQA 模型)。这使得我们原始推理成本远低于行业平均水平,在定价上自然留出了 2 到 3 倍的利润空间。此次价格调整,只是我们决定把这些结构性成本优势直接让利给开发者。
在新的、更低的 API 价格之下,我们的生产推理引擎已接近满负载运行,并且我们基本上仍然可以维持收支平衡(we can still essentially break even)。我们此前曾建议大语言模型(LLM)公司不要“盲目降价”,正是因为很少有模型架构和推理优化能力,能够在 API 大幅降价后仍避免亏损。如果未来出现更多能够节省计算量和 KV 缓存的架构,并配合更好的推理基础设施(Infra)来降低 API 成本,这将在行业内形成一个绝佳的良性循环。