研究者提出新方法,认为大语言模型在处理长上下文信息后,需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前,让模型对当前context进行多次forward pass,将信息沉淀进模型的快速权重中,而非在用户等待时进行思考。实验表明,在相同token预算下,此方法可将多跳推理任务的准确率大幅提升52%,且推理延迟不变。
特么人需要睡觉,大模型迎无一例外啊!
我最近在用大模型做真正需要深度推理的项目时候
十万token的合同、整个codebase塞进去都没问题。
可一旦让我多跳追问、把散落的事实串起来,它就开始犯糊涂。
明明信息全在,却总觉得它知道答案在哪,就是拼不起来。
不仅睡觉,记忆也是大问题,
CMU和UMD的研究者最近发了一篇论文,直接把这堵墙拆开了。
论文标题就叫Language Models Need Sleep。
他们用Rule 110这种图灵完备的toy task做实验,发现问题根本不在内存容量。
hybrid模型的fast weights能存下信息,但真正把context翻译成可用的内部表示,需要多次forward pass去巩固。
他们把这个过程叫sleep。
在清KV cache前,让模型对当前context多跑几次forward pass,把记忆慢慢沉淀进fast weights。
预测时还是单次forward,延迟一点没变。
结果在多跳推理任务上,准确率直接拉升52%。
同一个小模型,同样的token预算,只是多给它一点离线整理时间。