公众号:蚂蚁百灵(Ling)
如何优雅地给 MLA 加上 QK-Norm?
AI 摘要
DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com