Berryxia.AI@berryxia

2026-05-26 22:50·37天前

AI 摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》（arXiv 2605.26099）中指出，传统Transformer模型在处理长任务时，因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此，他们提出了受生物启发的“类睡眠巩固”机制：模型会周期性进入“睡眠”状态，离线多轮处理最近的上下文，并将信息固化到模型状态空间块的fast weights中，随后清空KV cache。实验表明，增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源，提供了一种区别于暴力堆显存的长上下文处理新范式。

别被骗了！大模型也特么需要"睡觉"？

一个来自CMU和UMD的研究团队发现：Transformer大模型在处理超长任务时注意力机制彻底拉胯

他们没有继续堆上下文长度而是直接给模型安排了"睡眠"

模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache

这个机制叫"sleep-like consolidation"大模型也需要睡觉

故事就藏在2026年5月25日刚出的arXiv 2605.26099里

标题直白到离谱：《Language Models Need Sleep》

作者Sangyun Lee、Sean McLeish、Tom Goldstein、Giulia Fanti

传统Transformer在长时序任务上越跑越累因为attention对上下文长度是二次方爆炸。

KV cache占显存越来越多推理速度越来越慢。

他们提出的方案超级生物启发：

模型每隔一段时间进入"睡眠模式"

先把最近积累的上下文做N次离线循环遍历

然后通过一个学会的局部规则把这些信息固化到state-space model块里的fast weights里

固化完直接清空KV cache

醒来后模型继续工作但记忆已经从"短期易失"变成了"长期持久"

实验结果直接证明：增加睡眠深度或者睡眠时长能显著提升睡眠后的推理能力

这不是又一个参数技巧而是彻底改变了模型处理长上下文的范式。

Big Tech还在疯狂卷把上下文拉到百万级靠暴力堆显存。

这个小团队却用"睡觉"这个最简单的人类机制把问题从根上解决了。

整个框架100%开源论文代码思路全在arXiv上。

Big Tech的闭源长上下文订阅模式靠的就是你不知道模型其实可以"睡觉"来省资源。

himanshuvery cool research (and nomenclature)

arXiv开源生态推理论文/研究

Berryxia.AI@berryxia · X

44导出 Markdown