针对大型语言模型长上下文推理中全注意力机制的计算瓶颈,本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性:仅少数注意力头需要完整长上下文处理;长程检索主要依赖低维子空间,可通过轻量级索引器实现;且有用令牌预算高度依赖查询。基于此,RTPurbo仅对检索类注意力头保留完整KV缓存,并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性,该方法仅需数百步训练即可完成稀疏化。实验显示,RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速,同时保持近乎无损的推理准确率。