# 如何优雅地给 MLA 加上 QK-Norm？

- 来源：公众号：蚂蚁百灵（Ling）
- 作者：百灵大模型
- 发布时间：2026-06-29 18:00
- AIHOT 分数：51
- AIHOT 链接：https://aihot.virxact.com/items/cmqz24pvi000lsly4ey0gie2j
- 原文链接：https://mp.weixin.qq.com/s/QJ1Khv6FUJFzXqDighybIA

## AI 摘要

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
