AI 摘要
针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题,该论文提出一种“睡眠”式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理,将整合结果写入其状态空间模块的持久化快速权重中,随后清除KV缓存。此方法将额外计算转移至“睡眠”阶段,使“清醒”时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中,更长的睡眠时间能提升性能,为需要长期运行的智能体提供了一种替代方案。
Language models need "sleep"
// Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getting the most from long-horizon agents. He...