思考即回忆:推理如何解锁LLM中的参数化知识
发现一个反直觉现象,让模型推理能提升简单事实回忆,不是靠分步解题而是计算缓冲和事实预热,对理解模型知识召回机制很有启发,但中间步骤幻觉也带来风险。
Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。
探索我们的众多重点领域
查看所有研究领域
应用 AI 与科学
地球 AI 健康 AI 科学 AI 可持续性与危机韧性
基础机器学习与算法
算法与理论 信息检索 机器智能 机器感知 自然语言处理
人、系统与量子 AI
人机交互与可视化 网络 量子 AI 负责任 AI 反滥用 软件工程 软件系统
了解更多
论文 项目
构建协作生态系统
数据集 获取高质量数据集以加速你的研究。 工具与服务 探索我们最新的 AI 模型与产品。
开源 发现开源代码并与社区协作。
共同塑造未来
查看所有项目
教师项目 通过与大学教师的深入互动参与学术研究社区。 学生项目 通过广泛的课程支持下一代研究人员。
工作地点 在我们遍布全球的办公室和研究实验室中找到你的位置。
将发现转化为现实世界的影响力
人员 我们的研究人员通过基础与应用研究推动计算机科学的进步。 团队 协作团队应对世界上最具挑战性的 AI 问题。
研究 探索我们的众多重点领域
查看所有研究领域
应用 AI 与科学
基础机器学习与算法
人、系统与量子 AI
了解更多
论文 项目
资源 构建协作生态系统
数据集 获取高质量数据集以加速你的研究。 工具与服务 探索我们最新的 AI 模型与产品。 开源 发现开源代码并与社区协作。
会议与活动
职业发展 共同塑造未来
查看所有项目
教师项目 通过与大学教师的深入互动参与学术研究社区。 学生项目 通过广泛的课程支持下一代研究人员。 工作地点 在我们遍布全球的办公室和研究实验室中找到你的位置。
博客
关于我们 将发现转化为现实世界的影响力
人员 我们的研究人员通过基础与应用研究推动计算机科学的进步。 团队 协作团队应对世界上最具挑战性的 AI 问题。
Google Research
Google AI 了解我们所有的 AI Google DeepMind 探索 AI 前沿 Google Labs 尝试我们的 AI 实验
研究
资源
会议与活动
职业生涯
博客
关于
搜索
1. 首页 2. 博客 思考以回忆:推理如何解锁大语言模型中的参数化知识
2026年6月24日
Zorik Gekhman 和 Jonathan Herzig,Google Research 研究科学家
我们研究了一个反直觉的现象:即使不需要复杂的逐步解决方案,推理也能帮助语言模型回忆起简单的事实。我们证明,这一现象由两种机制驱动:(1) 使用生成的推理 token 执行潜在计算,以及 (2) 生成相关事实以启发正确的答案回忆。 快速链接 论文 [](https://twitter.com/intent/tweet?text=https%3A//research.google/blog/thinking-to-recall-how-reasoning-unlocks-parametric-knowledge-in-llms/ "分享到 Twitter") [](https://www.facebook.com/sharer/sharer.php?u=https%3A//research.google/blog/thinking-to-recall-how-reasoning-unlocks-parametric-knowledge-in-llms/ "分享到 Facebook") [](https://www.linkedin.com/shareArticle?url=https%3A//research.google/blog/thinking-to-recall-how-reasoning-unlocks-parametric-knowledge-in-llms/&mini=true "分享到 LinkedIn") [](mailto:name@example.com?subject=Check%20out%20this%20site&body=Check%20out%20https%3A//research.google/blog/thinking-to-recall-how-reasoning-unlocks-parametric-knowledge-in-llms/ "通过电子邮件发送") 复制链接 ×
众所周知,允许大语言模型(LLM)生成逐步推理轨迹(通常称为链式推理(CoT))可以提升其在复杂任务上的表现。当模型求解困难数学方程、编写软件或回答多跳事实性问题时,将问题分解为可管理的逻辑步骤非常有效。
然而,对于简单、单跳的事实性问题,这种方法的作用仍不明确。例如,考虑这样一个查询:"Mary Engle Pennington 是哪一年入选美国国家发明家名人堂的?" 大语言模型要么在参数化记忆(直接编码在其权重中的知识)中存储了该事实,要么没有;不需要任何复杂的算术或逻辑推理。那么,推理轨迹为什么会有所帮助呢?
在《思考以回忆:推理如何解锁大语言模型中的参数化知识》中,我们研究了这个现象。我们证明,允许模型生成推理轨迹可以解锁那些否则实际上无法触及的正确回答。为了理解在没有复杂推理步骤需要执行的情况下,推理为何有助于参数化知识的回忆,我们进行了一系列由假设驱动的对照实验。我们的发现揭示了驱动这一过程的两种互补机制:计算缓冲区效应和事实启动效应。
探知知识边界
我们首先使用 pass@k 指标衡量参数化回忆能力边界。pass@k 不仅检查模型生成的一个答案,而是检查正确事实是否存在于多次生成的尝试中。通过评估模型输出分布中成功推理路径的存在性,同时对其确切排序不那么敏感,pass@k 帮助我们估计推理在事实回忆方面的潜力,而不仅仅是观察当前模型的 top-1 行为。为了在控制参数化知识的同时评估推理的影响,我们重点关注推理型大语言模型(R-LLM),这些模型可以启用或禁用推理(切换开或关),并比较这两种模式下的 pass@k。我们重点关注 Gemini-2.5(Flash 和 Pro)以及 Qwen3-32B 模型,使用两个具有挑战性的闭卷问答数据集:SimpleQA Verified 和 EntityQuestions。
结果惊人地一致。当推理启用时,模型成功回忆出那些在推理关闭时几乎无法找回的答案。重要的是,这种改进并不是因为模型在分解复杂问题。这源于我们有意选择那些主要包含简单、单跳问题的数据集。
跨两个闭卷问答数据集和三个大语言模型的 Pass@k 曲线,比较相同模型在推理启用(开)与推理禁用(关)的情况。
这些结果提出了一个问题:如果这种效果并非来自逐步推理,那么是哪种推理模式使模型能够检索到正确答案?
机制 1:计算缓冲区
我们的第一个假设聚焦于生成过程的机制。我们基于一个长期存在的假设——即生成额外 token 相当于通过提供额外的前向传播来延长计算时间——并在 R-LLM 的参数化知识回忆这一新场景中对其进行检验。具体来说,我们假设模型会隐式地将这些推理 token 用作一种计算缓冲,以进行潜在处理,而这一过程与正在生成的实际语义内容无关。
为了检验这一点,我们设计了一项实验,从推理轨迹中移除所有有意义的内容。我们截取模型的推理过程,将其生成的轨迹替换成一段无意义的字符串 `"Let me think"`,重复填充直到与原推理轨迹长度一致。然后,我们让模型基于这段占位文本预测最终答案。
值得注意的是,与完全关闭推理的基线相比,让模型基于这段无意义的轨迹进行条件生成,显著提升了其回忆正确答案的能力。这提供了强有力的证据,表明仅仅给模型更长的计算路径,就能帮助它优化内部状态并检索难以触及的事实。
_计算缓冲效应对 Gemini-2.5-Flash 的影响。ON Dummy 将思考轨迹替换为一段不含事实内容的短序列,并重复至与原轨迹 token 长度相等。_
然而,这种计算缓冲效应存在局限性。将占位文本推至更长长度时,其收益会逐渐递减,且始终无法完全达到模型自然推理轨迹的表现水平。这意味着,虽然额外计算有帮助,但思维的实际内容仍然重要。
_在基于占位推理轨迹进行条件生成时,推理有效性随输入 token 长度的变化曲线。ON Dummy X 将推理轨迹替换为一段重复的短占位序列,使输入长度为 X token。推理有效性指标(Ω)总结了所有 k 值下的 pass@k 增益,定义为推理开启与关闭模式下 pass@k 值的加权平均相对差异。_ 机制 2:事实启动(Factual priming)
当我们分析针对简单事实性问题生成的自然推理轨迹时,观察到一种常见模式。模型并不会写出逻辑证明,而是在浮现相关事实。
在人类认知中,存在一个被称为激活扩散的概念,即处理某个特定概念会启动语义记忆中相关的概念,使它们更容易被检索。我们假设大语言模型表现出一种类似的生成式自检索机制,我们将其称为**事实启动**。通过生成与问题主题相关的事实,模型构建了一个上下文桥梁,从而促进正确答案的检索。
为验证这一假设,我们从模型的推理痕迹中提取出具体的事实,并应用严格过滤以去除任何填充文本、搜索计划或对最终目标答案的明确提及。然后,我们将已回忆事实的效果独立出来,并证明:在以一小组已回忆事实为条件时,能够恢复推理的大部分增益,并且即便在推理关闭的情况下也有帮助。
对 Gemini-2.5-Flash 的事实启动效应。我们首先提取推理过程中提及的事实。**ON Facts** 用这个简短的事实列表覆盖模型原有的推理痕迹并重新生成最终答案,而 **OFF Facts** 则在禁用模型推理的情况下运行,将事实列表作为额外输入上下文的一部分提供给提示词。
例如,如果被问及尼泊尔第十任国王的名字,推理模型可能会先列出前九位国王。回忆出前九位国王相当于语义预热,启动网络从而成功回忆出第十位。事实本身就是垫脚石。
“事实启动”实际运作的示意:中间的事实检索(列出前九位国王)启动模型成功回忆出尼泊尔第十任国王。模型在启用推理(ON)时正确回答,而没有推理则失败。当预测仅以推理过程中回忆的一小组事实(ON Facts)为条件时,它也能成功。
模型幻觉陷阱
虽然生成式自检索是一种强大的机制,但它引入了一个根本性风险。由于模型自行生成这些中间事实,它们可能是幻觉产物。因此,我们检查这些推理阶段的错误如何影响最终答案。为了弄清这一点,我们构建了一个大规模审计管道,使用支持搜索的验证器,独立检查数十万条推理痕迹中生成的每一个中间事实的正确性。
审计揭示出一个明显的模式。如果一条推理痕迹中哪怕包含一个幻觉的中间事实……