CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
别被骗了! 大模型也特么需要"睡觉"?
一个来自CMU和UMD的研究团队发现:Transformer大模型在处理超长任务时注意力机制彻底拉胯
他们没有继续堆上下文长度而是直接给模型安排了"睡眠"
模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache
这个机制叫"sleep-like consolidation"大模型也需要睡觉
故事就藏在2026年5月25日刚出的arXiv 2605.26099里
标题直白到离谱:《Language Models Need Sleep》
作者Sangyun Lee、Sean McLeish、Tom Goldstein、Giulia Fanti
传统Transformer在长时序任务上越跑越累因为attention对上下文长度是二次方爆炸。
KV cache占显存越来越多推理速度越来越慢。