公众号:百度智能云(文心)
百度百舸联合复旦提出LU-KV框架,被ICML 2026录用
精选理由
ICML接收的KV Cache压缩新方法,把缓存预算分配从看当前分数改成全局优化,能显著降低显存占用,做长上下文推理的值得细读。
AI 摘要
百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com