小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

2026-06-29 19:00·16小时前·小红书技术REDtech

精选理由

小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

AI 摘要

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

公众号正文需在微信内阅读，站内仅提供摘要。

arXivGitHub产品更新推理

在微信中打开原文

公众号：小红书技术（dots.llm）

精选72