你以为大模型在“思考“？其实它只是在努力“回忆“

狮子座明仔

406人浏览 · 2026-03-16 10:00:35

狮子座明仔 · 2026-03-16 10:00:35 发布

你以为大模型在"思考"？其实它只是在努力"回忆"

一句话总结：Google Research 发现，让大模型"思考"不仅能解数学题，还能帮它回忆起本来答不上来的简单事实——背后的两个机制像极了人类考试时的"草稿纸效应"和"联想记忆"。

论文标题：Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

作者：Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig

机构：Google Research, Technion - Israel Institute of Technology, Tel Aviv University

论文链接：arXiv:2603.09906

一、引子：一个反直觉的现象

想象一个场景：考试时遇到一道简单的填空题——"清朝最后一个皇帝是谁？"你明明知道答案，但就是想不起来。这时候你在草稿纸上随手写了几个清朝的年号、几个王爷的名字，突然"溥仪"两个字就蹦了出来。

这个场景看起来很日常，但如果我告诉你，大语言模型（LLM）也在做同样的事情呢？

过去一年，“推理模型"成了AI圈最热的词。OpenAI的o系列、DeepSeek-R1、Gemini 2.5——这些模型在回答问题前会先"想一想”，生成一段内部推理过程（reasoning trace）。对于数学证明、代码生成、多步推理这些需要逻辑链条的任务，推理的价值显而易见。但Google Research的这篇论文提出了一个让人挠头的问题：

对于那些根本不需要"推理"的简单事实问题，开启推理模式为什么也能大幅提升正确率？

“法国的首都是哪里？”——这种问题需要什么推理步骤？不需要分解、不需要逻辑链、不需要多步计算。模型要么知道，要么不知道。但实验结果清楚地表明：开启推理后，模型能答对的问题范围显著扩大了。

这篇论文通过一系列精心设计的对照实验，拆解出了两个关键机制，并揭示了一个潜在的风险。接下来我们深入看看。

二、实验设计：如何科学地"捉鬼"

2.1 为什么用 pass@k 而不是 accuracy

这里有一个重要的实验设计选择。如果只看单次回答的准确率（pass@1），我们很难分辨"推理帮助模型回忆起了新知识"还是"推理只是让模型更稳定地输出已知答案"。

作者采用了 pass@k 指标：给模型同一个问题采样 k 次，只要有一次答对就算通过。这个指标衡量的不是"模型多稳定"，而是"模型的知识边界在哪里"。如果 pass@100 在开启推理后显著提升，说明推理真的解锁了模型"本来不知道"的答案，而不仅仅是提高了已知答案的输出概率。

这个思路非常聪明。打个比方：如果你抽奖100次都没中过，说明你确实没有中奖的可能；但如果多给你100次机会你就能中一次，那说明你本来就在奖池里，只是概率太低。pass@k 就是在测试这个"奖池边界"。

2.2 模型和数据集

实验使用了三个支持推理开关切换的"混合模型"：

Gemini-2.5-Flash（Google 轻量级推理模型）
Gemini-2.5-Pro（Google 旗舰推理模型）
Qwen3-32B（通义千问开源推理模型）

选择"混合模型"的好处是可以在完全相同的参数下，仅切换推理开关来对比效果，排除了模型架构差异带来的干扰。

数据集方面使用了两个闭卷QA基准：

SimpleQA-Verified：1000个经过人工验证的事实问题，涵盖多种主题
EntityQuestions：1000个模板化的实体关系问题（4种关系类型），控制变量更严格

2.3 核心指标 Ω(N)

为了量化"推理对记忆提取的帮助程度"，作者定义了 Ω(N) 指标：

$\Omega(N) = \frac{\sum_{k=1}^{N} w_k \cdot \Delta(k)}{\sum_{k=1}^{N} w_k}$

其中 $\Delta(k) = \text{pass@k}_{ON} - \text{pass@k}_{OFF}$ ，权重 $w_k = k$ 。

这个加权设计有其用意：更高的 k 值对应的是更难的"边界知识"，给它们更大的权重意味着我们更关注推理在知识边界上的突破能力，而非在简单问题上锦上添花。

三、核心发现：推理确实扩展了知识边界

3.1 pass@k 曲线：全面碾压

Figure 1: pass@k curves

上图展示了三个模型在两个数据集上的 pass@k 曲线。蓝色线（ON）始终高于橙色线（OFF），而且随着 k 的增大，差距不但没有缩小，反而进一步拉开。

最直观的数字：Qwen3-32B 在 SimpleQA-Verified 上，推理模式的 pass@100 几乎是非推理模式的两倍。这意味着开启推理后，模型能从参数中"挖掘"出大量原本无法触及的正确答案。

这不是"同一批知识回忆得更稳定"，而是"知道了以前不知道的东西"。

3.2 弱模型获益更多

Figure 2: Reasoning effectiveness Ω

从 Ω(100) 指标来看，一个清晰的趋势浮现：模型能力越弱（pass@1越低），从推理中获益越多。

这就像考试中的差生和优等生：优等生本来就能轻松回忆起大部分知识，草稿纸对他的帮助有限；但对差生来说，草稿纸上的涂涂画画可能就是唤醒模糊记忆的关键。

另一个有趣的观察是：SimpleQA-Verified 上的 Ω 普遍高于 EntityQuestions。这很可能是因为 SimpleQA 的基线准确率更低（更多"边界知识"可以被解锁），而 EntityQuestions 的模板化问题本身就相对容易，提升空间自然更小。

3.3 问题复杂度不是决定因素

Figure 3: Question difficulty analysis

一个自然的反驳是：“也许SimpleQA里的问题并不’简单’，推理帮助的其实是那些需要多步分解的复杂问题？”

作者对此做了细致的分析：将问题分为"简单"和"复杂"两类，分别计算 Ω。结果显示，两类问题的 Ω 置信区间高度重叠，没有统计显著差异。也就是说，推理对简单问题和复杂问题的帮助程度基本一致。

这排除了"推理只在复杂问题上有用"的解释，进一步确认：推理的核心作用不是逻辑分解，而是改善知识提取本身。

四、机制一：计算缓冲效应——"草稿纸"本身就有用

4.1 实验：用废话填充推理

为了测试"推理token的语义内容是否重要"，作者设计了一个大胆的实验：

ON：正常推理模式
ON Dummy：将推理轨迹替换为与原始长度相同的无意义填充词（“Let me think.” 重复N次），然后让模型生成最终答案
ON Single Dummy：只用一次 “Let me think.”
OFF：关闭推理

Figure 4: Computational buffer effect

结果出人意料：

模式	SimpleQA (pass@1)	EntityQuestions (pass@1)
OFF	0.206	0.457
ON Single Dummy	~0.22	~0.50
ON Dummy（匹配长度）	0.262	0.554
ON（完整推理）	更高	更高

即便推理内容完全是废话，仅仅是多处理了一些token，模型的回忆能力就提升了。在 SimpleQA 上从 0.206 跳到 0.262，提升了约 27%。

这意味着什么？Transformer 在生成推理 token 的过程中，内部的注意力机制和前馈网络在进行额外的"隐式计算"。这些计算与文本的语义内容无关，而是利用多层网络的迭代处理来"预热"或"激活"与问题相关的参数空间。

4.2 长度的非单调效应

Figure 5: Scaling of Ω with dummy token length

更有趣的是，增加虚拟推理的长度并非单调有益。性能在大约 2048 tokens 处达到峰值，之后开始饱和甚至下降。这像极了人类考试时在草稿纸上瞎写——写一页有助于唤醒记忆，但如果你花半小时写了十页废话，反而会分散注意力。

这个发现也暗示了一个工程应用方向：如果你只需要"计算缓冲"效果，不需要花费大量token在真正的推理上，一段适中长度的"预热"可能就够了。

4.3 深层含义：Transformer 的隐式计算

这个发现触及了一个更深层的理论问题：Transformer 的前向传播中到底在做什么？

传统理解是，每个token的生成依赖于之前所有token的注意力分布。但计算缓冲效应告诉我们，即使之前的token在语义上毫无意义，模型也能利用这些额外的前向传播步骤来进行某种形式的"深度检索"。

一个可能的解释是：模型的知识存储在参数中的方式并不总是能被直接访问的。某些知识可能需要多次前向传播才能被"激活"——就像深埋在地下的水脉，需要多钻几次才能打到。推理 token 提供的额外计算步骤，相当于给了模型更多次"钻探"的机会。

五、机制二：事实启动效应——"联想记忆"的力量

5.1 实验设计

计算缓冲效应只能解释推理收益的一部分。那么推理轨迹的语义内容是否也有独立贡献？

作者用一个精妙的实验来回答：

用 Gemini-2.5-Flash 在推理模式下回答问题，提取推理轨迹中的事实陈述
关闭推理，将这些事实作为上下文（context）提供给模型
对比多种条件：
- OFF：纯关闭推理
- OFF Dummy：关闭推理 + 等长填充词上下文
- OFF Facts：关闭推理 + 事实列表上下文
- ON Dummy：推理模式 + 虚拟推理轨迹
- ON Facts：推理模式 + 事实列表覆盖推理轨迹
- ON：完整推理模式

Figure 6: Factual priming effect

5.2 结果解读

结果非常漂亮：

OFF Facts 显著优于 OFF Dummy：同样长度的上下文，有语义的事实远比无意义填充词有效。这直接证明了事实的语义内容有独立价值。
ON Facts 在 EntityQuestions 上接近甚至匹敌完整推理 ON：仅用一个事实列表就能达到完整推理的效果，而且消耗的 token 更少。
事实启动效应解释了推理收益的主体部分。

这就是"联想记忆"在起作用。当模型在推理过程中"说出"与问题主题相关的事实时，这些事实像多米诺骨牌一样，激活了相关的参数区域，最终让正确答案浮出水面。

举个具体的例子（论文中的案例）：当被问到"尼泊尔第10任国王是谁"时，模型在推理过程中列举了前9任国王的名字。这些名字本身就是正确答案的"语义近邻"，它们的出现大大提高了第10任国王名字被正确检索的概率。就像你在背一首长诗时，从头开始默念，自然就能接上后面忘记的部分。

5.3 实际应用：推理轨迹选择

基于以上发现，作者提出了一个直接的应用：通过筛选推理轨迹来提升准确率。

选择策略	SimpleQA-Verified	EntityQuestions
Regular（随机选择）	27.9	56.9
Only Facts（保留含事实的轨迹）	30.2 (+8.2%)	58.4 (+2.6%)
Only Correct Facts（保留含正确事实的轨迹）	31.3 (+12.2%)	59.8 (+5.1%)

在测试时，如果我们能判断推理轨迹中的事实是否正确（比如通过外部知识库验证），然后只保留那些包含正确事实的轨迹，准确率可以在 SimpleQA 上提升 12.2%。这是一个在工程上非常实用的策略。

六、暗面：幻觉的传播链

6.1 生成式自检索的代价

事实启动是一把双刃剑。当模型在推理中生成了正确的中间事实，正确答案更可能被检索到；但如果模型生成了错误的中间事实（幻觉），情况就完全反转了。

作者对推理轨迹中的事实陈述进行了真实性标注，然后统计了包含幻觉事实 vs 不包含幻觉事实的轨迹的最终答案正确率：

轨迹类型	SimpleQA 正确率	EntityQuestions 正确率
Clean（无幻觉中间事实）	41.4%	71.1%
Hallucinated（有幻觉中间事实）	26.4%	32.2%

差距触目惊心。在 EntityQuestions 上，包含幻觉事实的轨迹，最终答案正确率从 71.1% 骤降到 32.2%——砍掉了一半多。

6.2 问题内对比：排除混淆因素

Figure 7: Within-question hallucination analysis

一个合理的质疑是：“也许产生幻觉的轨迹本身就对应更难的问题，所以正确率低不是因为幻觉，而是因为问题难。”

为了排除这个混淆因素，作者做了一个精细的问题内对比：对于同一个问题的多次采样（k=100），分别统计 Clean 轨迹和 Hallucinated 轨迹的正确率，然后做回归分析。

上图中，每个点代表一个问题。X轴是该问题下 Clean 轨迹的正确率，Y轴是 Hallucinated 轨迹的正确率。如果幻觉没有影响，点应该分布在对角线上。实际结果是：

回归斜率 0.84（SimpleQA）和 0.86（EntityQuestions），均显著小于 1
大部分点落在对角线下方（红色），即 Hallucinated 轨迹的正确率系统性地低于 Clean 轨迹

这意味着，即使控制了问题难度，幻觉中间事实依然会显著降低最终答案的正确率。幻觉不是"弱问题"的副产品，而是一个独立的伤害因素。

6.3 幻觉传播的机制

这个发现的深层含义是：推理模型中存在一条"幻觉传播链"。模型在推理中生成的中间内容不是"写完就扔"的草稿，而是会反过来影响后续生成的锚点。一个错误的中间事实会把模型的"检索方向"带偏，就像考试时在草稿纸上写错了一个公式，后面的计算就全歪了。

这对推理模型的部署提出了严肃的警告：推理时间越长、中间步骤越多，幻觉传播的风险也越大。盲目增加推理长度不仅浪费token，还可能适得其反。

七、个人分析与思考

7.1 这篇论文做对了什么

首先，实验设计的严谨性值得学习。作者没有简单地对比 ON 和 OFF 的准确率然后宣布"推理有用"，而是通过 pass@k 指标区分了"知识边界扩展"和"输出稳定性提升"，通过 Dummy 实验分离了"计算缓冲"和"语义内容"两个变量，通过问题内对比排除了"问题难度"这个混淆因素。每一步都在做减法，层层剥离，最终锁定因果关系。这是做机制研究的典范。

其次，实用价值明确。推理轨迹选择策略（Table 1）是一个可以立刻落地的工程方法。在RAG系统中，我们可以对模型的推理轨迹进行事实性验证，优先采用包含正确中间事实的轨迹，这比单纯的 self-consistency（多数投票）更有针对性。

7.2 局限与疑问

模型覆盖范围有限。实验只用了三个模型（两个 Gemini + 一个 Qwen），且都是"混合模型"。对于 DeepSeek-R1、OpenAI o系列这些纯推理模型，结论是否成立还需验证。特别是，不同模型的推理训练方式不同（RLHF、GRPO、蒸馏），计算缓冲和事实启动的相对贡献可能会有显著差异。

因果方向的不确定性。幻觉传播实验虽然控制了问题难度，但仍存在一种可能：模型在某些采样中"状态不好"（比如注意力分布的随机波动），同时导致了中间幻觉和最终错误，而不是幻觉"导致"了错误。要彻底确认因果方向，可能需要更激进的干预实验，比如人为向 Clean 轨迹注入假事实。

计算缓冲的理论解释不够深入。论文证明了计算缓冲效应的存在，但没有深入探讨其神经网络层面的机制。这些额外的前向传播到底激活了什么？是注意力头的重新组合？是MLP层中的知识路径切换？这些问题需要更细粒度的 mechanistic interpretability 研究来回答。

7.3 对工程实践的启示

1. 推理预算分配策略

既然计算缓冲在 ~2048 tokens 处饱和，那对于简单事实问题，可以设计一种"轻量推理"模式：生成固定长度的推理 token（不需要是有意义的推理），然后直接输出答案。这比完整推理节省大量 token，同时保留了计算缓冲的收益。

2. 推理轨迹的质量监控

幻觉传播的发现意味着，在生产环境中对推理轨迹进行实时的事实性检查是有价值的。可以设计一个轻量级的 fact-checker，在推理过程中监控中间事实的可靠性，一旦检测到幻觉，就截断当前轨迹并重新采样。

3. RAG + 推理的协同设计

事实启动效应暗示了一种新的 RAG 范式：不是把检索到的文档直接拼在 prompt 里，而是让模型在推理阶段"自主检索"相关事实。当然，这需要模型具备可靠的参数化知识。一个折中方案是：先用 RAG 检索相关事实，然后以"推理轨迹"的形式注入，模拟事实启动效应。

4. 推理蒸馏的新视角

如果推理的核心价值不仅是逻辑分解，还包括知识激活，那推理蒸馏（把大模型的推理能力迁移到小模型）的策略可能需要调整。传统的蒸馏关注"推理步骤的正确性"，但这篇论文提示我们也应该关注"推理过程中事实召回的丰富性"。

八、总结

这篇论文回答了一个看似简单实则深刻的问题：为什么让大模型"思考"能帮它回忆起更多事实？

答案分为两层：

计算缓冲：推理 token 提供了额外的前向传播步骤，让模型有更多机会从参数深处"挖掘"出正确答案。哪怕这些 token 是废话也有效。
事实启动：推理过程中生成的相关事实充当"语义桥梁"，激活了正确答案所在的参数区域。这是推理收益的主要来源。

但天下没有免费的午餐。推理过程中的幻觉中间事实会反向传播，显著降低最终答案的正确率。推理模型不是"想得越多越好"，而是"想得对才行"。

从更宏观的视角看，这篇论文揭示了一个深刻的洞察：推理和记忆在 LLM 中不是割裂的两个模块，而是深度耦合的。推理不仅服务于逻辑推导，更是知识检索的催化剂。这改变了我们对"推理模型到底在做什么"的理解——它们不只是在"思考"，也在"回忆"。

或者用一句更接地气的话说：大模型的"推理"，本质上是给自己出了一张"联想草稿纸"。草稿纸上写的内容越相关、越准确，最终的回忆就越可靠。但如果草稿纸上写满了胡话，那还不如不写。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我的微信公众号：机器懂语言

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

前后端分离家电销售展示平台系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

AtomGit开源社区

网购平台信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

AtomGit开源社区

前后端分离乡村政务办公系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

AtomGit开源社区

所有评论(0)

查看更多评论

狮子座明仔

@shibing624

已为社区贡献15条内容