公众号：蚂蚁百灵（Ling）

如何优雅地给 MLA 加上 QK-Norm？

2026-06-29 18:00·3天前·百灵大模型

AI 摘要

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

公众号正文需在微信内阅读，站内仅提供摘要。

DeepSeek 推理教程/实践数据/训练

在微信中打开原文导出 Markdown

公众号：蚂蚁百灵（Ling）

51导出 Markdown