# 大语言模型需要"睡眠"以提升推理准确率

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-26 23:14
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmpmsgsjg0retsl01spnajj7h
- 原文链接：https://x.com/berryxia/status/2059292022620487760

## AI 摘要

研究者提出新方法，认为大语言模型在处理长上下文信息后，需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前，让模型对当前context进行多次forward pass，将信息沉淀进模型的快速权重中，而非在用户等待时进行思考。实验表明，在相同token预算下，此方法可将多跳推理任务的准确率大幅提升52%，且推理延迟不变。

## 正文

特么人需要睡觉，大模型迎无一例外啊！

我最近在用大模型做真正需要深度推理的项目时候

十万token的合同、整个codebase塞进去都没问题。

可一旦让我多跳追问、把散落的事实串起来，它就开始犯糊涂。

明明信息全在，却总觉得它知道答案在哪，就是拼不起来。

不仅睡觉，记忆也是大问题，

CMU和UMD的研究者最近发了一篇论文，直接把这堵墙拆开了。

论文标题就叫Language Models Need Sleep。

他们用Rule 110这种图灵完备的toy task做实验，发现问题根本不在内存容量。

hybrid模型的fast weights能存下信息，但真正把context翻译成可用的内部表示，需要多次forward pass去巩固。

他们把这个过程叫sleep。

在清KV cache前，让模型对当前context多跑几次forward pass，把记忆慢慢沉淀进fast weights。

预测时还是单次forward，延迟一点没变。

结果在多跳推理任务上，准确率直接拉升52%。

同一个小模型，同样的token预算，只是多给它一点离线整理时间。

这和行业现在狂加上下文窗口、搞test-time compute完全是两个方向。

o1那种在回答时多想几秒，用户得等。

而sleep是在读取context的间隙里多算，用户什么都感觉不到，答案却更靠谱。

大脑其实早就这么干了。

白天海马体快速存，白天睡着时慢波睡眠把记忆replay到新皮层。

进化保留了1/3时间不响应外界，就是为了让认知更深。

我们一直以为智能就是always-on、一击即中。

其实最强的智能，可能需要清醒期和睡眠期的节奏。

### 引用推文

> Berryxia.AI：http://x.com/i/article/2059287655335206912