CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数,以此动态分配每一步的缓存预算:在模型不确定时保留更多上下文,自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序,并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明,在生成长度达 4K 时,其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中,CONF-KV 达到 91.4% 的准确率,远高于滑动窗口(53.8%)和 H2O(80.6%)。在 75 个 VisualWebArena 任务中,它以 2.8 倍更低的峰值内存,保留了完整 KV 缓存 95.3% 的成功率。