小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

2026-05-28 09:49·36天前

AI 摘要

小米宣布 MiMo-V2.5 系列 API 永久降价，最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释，核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化，将 Token 容量提升 5 倍，相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构，其原始推理成本远低于行业平均水平，此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价，需有相应的架构和优化能力支撑。

原文

IT之家 5 月 28 日消息，小米 MiMo 官方昨日宣布，小米 MiMo-V2.5 系列 API 永久降价，相比原始 API 定价，新定价最高降幅可达 99%，且不再区分上下文窗口长度。

小米 MiMo 负责人罗福莉随后在 X 平台发文，谈到了 MiMo API 降价的技术原因，IT之家附罗福莉原文翻译如下：

MiMo API 价格下调的背后：

最高降幅可达 99%，针对的是输入（缓存命中）。核心原因在于我们的推理框架现在支持针对 SWA 的分层 KV 缓存优化。生产推理引擎测试表明，该优化将缓存的 Token 容量提升了 5 倍，相当于降低了 80% 的缓存成本。再结合 Hybrid 模型中多个 Full Attention 模块之间的缓存读取重叠（Cache Read Overlap），实际成本得到了进一步降低。

输入（未命中缓存）和输出的价格也降低了约 60% 至 80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比（70 层的 MiMo-V2.5-Pro 的 prefill 计算量大致相当于一个 10 层的 GQA 模型）。这使得我们原始推理成本远低于行业平均水平，在定价上自然留出了 2 到 3 倍的利润空间。此次价格调整，只是我们决定把这些结构性成本优势直接让利给开发者。

在新的、更低的 API 价格之下，我们的生产推理引擎已接近满负载运行，并且我们基本上仍然可以维持收支平衡（we can still essentially break even）。我们此前曾建议大语言模型（LLM）公司不要“盲目降价”，正是因为很少有模型架构和推理优化能力，能够在 API 大幅降价后仍避免亏损。如果未来出现更多能够节省计算量和 KV 缓存的架构，并配合更好的推理基础设施（Infra）来降低 API 成本，这将在行业内形成一个绝佳的良性循环。

更重要的是，价格合理、性能优异的模型 API 将驱动真实、持续且大规模的推理需求。这种上游需求拉动了整个 AI 基础设施链的发展 —— 包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心 —— 并作为 AI 硬件系统性重估的战略支点。从长远来看，这为训练和推理管线注入了更廉价、更易获取的算力，从而加速了全球通用人工智能（AGI）在多个地区和技术路线上的并行演进。

更多技术细节，我们后续会发布一篇详细的 Blog。

IT之家（RSS）

65导出 Markdown

小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

2026-05-28 09:49·36天前

阅读原文· ithome.com

AI 摘要

原文

小米 MiMo 负责人罗福莉随后在 X 平台发文，谈到了 MiMo API 降价的技术原因，IT之家附罗福莉原文翻译如下：

MiMo API 价格下调的背后：