循环推理模型：把思考搬进隐空间

有为少年

620人浏览 · 2026-05-26 15:11:28

有为少年 · 2026-05-26 15:11:28 发布

在这里插入图片描述

为什么要把推理搬进隐空间

过去几年，AI 推理的主流叙事几乎被一个公式统治：更大的模型、更多的数据、更长的 Chain-of-Thought、更昂贵的推断期采样。大模型像一台巨型印刷机，把“思考”显式写成一串串 token；推理越复杂，吐出的 token 越多，KV cache、显存带宽和延迟也随之膨胀。

循环推理模型给出了另一条路线：推理不一定要完全写出来，也可以在隐空间里反复打草稿。Recursive Reasoning Models（RRM）的共同目标，是把推理计算从“输出序列长度”里部分解耦出来。模型不再只能靠不断追加文字来延长计算，而是在一个持续存在的隐状态中反复更新、检查、修正，最后再输出答案。

这个范式可以用一个最小公式表示：

$z_t = f_{\theta}(z_{t-1}, x)$

其中， $x$ 是输入约束， $z_t$ 是第 $t$ 步隐状态， $f_{\theta}$ 是共享的状态转移函数。关键不在于这个公式复杂，而在于它改变了 scaling 的对象：参数规模可以不变，最终输出长度可以不变，但内部计算深度可以继续增加。

HRM、TRM、PTRM、GRAM、HRM-Text 和 Hyperloop Transformer 都可以放进这个谱系里看。它们并不完全解决同一个问题：HRM/TRM 主要展示小模型在结构化 puzzle reasoning 上的强泛化；PTRM 和 GRAM 进一步处理确定性递归的坏盆地与多轨迹探索；HRM-Text 把分层递归推向语言预训练；Hyperloop 则从语言模型参数效率角度研究循环中间块和 hyper-connections。

循环并不否定自回归

这里需要先澄清一个常见误解：循环推理模型并不是要放弃自回归语言模型对 token 间依赖关系的建模。自回归模型的核心分解是：
$\mid x) = \prod_i p(y_i \mid x, y_{\lt i})$

也就是说，第 $i$ 个 token 依赖输入 $x$ 和之前已经生成的 token $y_{\lt i}$ 。这种因果依赖对于开放式文本生成极其重要，循环模型并不天然否定它。真正变化的是“每次预测前可以做多少内部计算”。普通自回归 Transformer 大致是在给定上下文后计算一次表示，再预测下一个 token：

$\begin{aligned} H &= F_{\theta}(x, y_{\lt i}), \\ p(y_i \mid x, y_{\lt i}) &= \mathrm{softmax}(W H_i) \end{aligned}$

循环模型则可以在预测前对同一段上下文的隐表示反复精炼：
$\begin{aligned} Z_0 &= \mathrm{Embed}(x, y_{\lt i}), \\ Z_t &= f_{\theta}(Z_{t-1}, x, y_{\lt i}), \\ p(y_i \mid x, y_{\lt i}) &= \mathrm{softmax}(W Z_T[i]) \end{aligned}$

这里的 $Z_t$ 通常不是一个单点向量，而是整段 token 序列的隐表示矩阵：
$Z_t \in \mathbb{R}^{L \times d}$

因此，循环发生在“深度 / 时间维”上，而不是把 token 维度抹掉。每一轮循环仍然可以通过 masked attention、gated attention、MLP 或其他模块传播 token 间信息；只要 attention mask 设计正确，因果依赖仍然成立。

所以，自回归和循环并不是互斥关系。自回归定义的是 token 生成顺序，循环定义的是每次生成或最终预测前的隐空间计算深度。一个循环语言模型完全可以仍然是自回归的，只是它在 next-token prediction 前多做若干轮内部细化。它和传统自回归模型竞争的原因，不是它不再建模 token 依赖，而是它把一部分推理计算从显式 token 链转移到了隐状态循环里。

从 HRM 到 TRM：循环推理的两条原型路线

HRM 是“分层双时间尺度”的原型，TRM 则是“极简递归精炼”的原型。前者强调类似慢速规划与快速执行的双层递归，后者则把这种解释剥离到最小：只保留输入、当前答案和隐式推理状态，让一个极小网络反复改进答案。

HRM 的结构包含四个可学习组件：输入网络 $f_I$ 、低层循环模块 $f_L$ 、高层循环模块 $f_H$ 和输出网络 $f_O$ 。输入先被投影到工作表示：
$\tilde{x} = f_I(x; \theta_I)$

低层状态在细粒度时间步更新：
$z_L^i = f_L(z_L^{i-1}, z_H^{i-1}, \tilde{x}; \theta_L)$

但高层状态不是每一步都更新，而是只在低层循环结束时更新：
$z_H^i = \begin{cases} f_H(z_H^{i-1}, z_L^i; \theta_H), & i \equiv 0 \pmod T \\ z_H^{i-1}, & \text{otherwise} \end{cases}$

最后输出由高层状态读出：
$\hat{y} = f_O(z_H^{NT}; \theta_O)$

这个结构的核心不是简单“多跑几层”，而是论文所称的 hierarchical convergence：低层 $L$ 模块会在当前高层背景下趋向局部平衡；高层 $H$ 模块随后吸收低层结果，改变全局上下文，相当于把低层计算重新引导到新的局部问题上。这样，模型试图避免普通 RNN 过早收敛到单一固定点的问题：低层可以局部稳定，高层又能不断重置和推进搜索阶段。

HRM 的另一个关键是训练方式。完整 BPTT 需要沿时间保存所有中间状态，内存成本随递归步数增长。HRM 使用 one-step gradient approximation：只让梯度穿过最后的局部计算路径，并把较早状态视为常量。其理论动机来自深度平衡模型中的隐函数观点：
$\frac{\partial z_H^\star}{\partial \theta} = (I - J_F)^{-1} \frac{\partial F}{\partial \theta}$
再用一阶近似：
$J_F)^{-1} \approx I$

这使得训练内存从随时间增长，变成近似常数级。需要注意的是，TRM 论文后来对这一固定点假设提出了质疑：它认为 HRM 在实际超参数下未必真的达到固定点。因此，更稳妥的说法是：HRM 使用固定点理论作为 one-step gradient 的动机，而不是证明实际训练轨迹必然已经收敛到精确固定点。

HRM 通过深监督把多个前向计算分段串起来：每个计算分段都输出一次答案并产生监督信号，结束后把隐状态 detach，再作为下一个计算分段的初始状态。这样，模型不需要一次性反传完整深链路，却可以在功能上获得很深的有效计算。

TRM 则对 HRM 做了非常有价值的“去神秘化”。TRM 作者认为，HRM 的两个状态可以更简单地理解为“当前答案表示”和“不可直接解码的推理状态”。因此不必强调复杂的生物层级，也不必强依赖固定点解释。只需要保留三个对象：输入 $x$ 、当前预测答案 $y$ 、隐式推理状态 $z$ 。

TRM 的核心过程可以写成：
$\leftarrow f_\theta(x + y + z) \quad \text{重复 } n \text{ 次}$

然后更新答案状态：
$\leftarrow f_\theta(y + z)$

这套过程再通过深监督重复多次。每次监督步都把上一轮的 $y$ 和 $z$ 作为初始化，让模型学会基于已有答案继续修正。从这个角度看，TRM 的 $z$ 扮演类似隐式 Chain-of-Thought 的角色，而 $y$ 则保留当前可解码答案。

TRM 的关键贡献在于证明：循环推理的强大能力并不一定来自复杂的分层解释。一个两层 tiny network，只要反复改进 latent 和 answer，并配合深监督，就可以在小数据 puzzle reasoning 上取得强泛化。

TRM 还指出，深监督可能是 HRM 成功的主要驱动力之一。论文引用的 ARC-AGI 独立分析显示，深监督对性能贡献很大，而单个监督步内的递归层级收益相对较小。这个观点不等于否定递归，而是提醒，循环推理模型的能力来自递归结构、状态携带、深监督、训练稳定性和评估 / 停止机制的组合。

双时间尺度与单网络递归

把 HRM 和 TRM 放在一起看，会发现循环推理模型正在形成两种互补哲学。

HRM 走的是“结构先验”路线。它相信复杂推理需要一个慢速战略层和一个快速执行层：高层 $H$ 负责抽象计划、任务目标和全局约束，低层 $L$ 负责局部传播、细节计算和短程搜索。这种设计适合解释为多时间尺度系统，也为后续 HRM-Text 和 GRAM 的分层结构提供了骨架。

TRM 走的是“最小机制”路线。它把问题简化为：给定输入 $x$ 、当前答案 $y$ 和推理草稿 $z$ ，模型能否通过多次递归把 $z$ 变得更有用，再把 $y$ 改得更正确？答案是可以。TRM 的成功说明，在很多强约束任务中，关键不只是模型是否拥有庞大参数，而是它是否拥有一个可持续改写的工作空间。

这两条路线并不冲突。HRM 更像是对复杂认知结构的建模，TRM 更像是对循环推理最小充分条件的提炼。前者告诉我们为什么多时间尺度可能有用，后者告诉我们即使去掉生物解释和显式层级，递归精炼本身也足够强大。

确定性递归的两大反派

隐空间循环听起来优雅，但它天然面对两个技术反派。

第一个反派是深时间轴上的梯度不稳定。如果把同一个模块反复应用 $T$ 次，反向传播会遇到雅可比矩阵连乘：
$\frac{\partial z_T}{\partial z_0} = \prod_{t=1}^{T} \frac{\partial z_t}{\partial z_{t-1}}$

当这个乘积的谱半径长期小于 $1$ ，梯度消失；长期大于 $1$ ，梯度爆炸。对普通深层网络来说，这已经棘手；对共享参数的递归网络来说，这种不稳定会被时间维度反复放大。

第二个反派是确定性坏盆地。标准递归是确定性的：给定输入 $x$ 和初始状态 $z_0$ ，轨迹唯一。模型一旦在早期更新中进入错误吸引子，后续步骤可能只是围着错误状态打转。PTRM 对 TRM 的轨迹分析显示，失败样本常常不是完全没学会，而是进入了错误盆地；延迟成功样本则会在某个监督步突然逃逸到更好的盆地。PTRM 论文观察到，Q value （指 TRM 的 Q head 对“当前答案是否已经正确”的内部打分）和 cell accuracy （指当前预测答案中有多少个格子 / 位置与标准答案一致）两个量在递归轨迹上通常一起升高或一起停滞：答案越接近正确，Q head 给出的分数也越高。因此，Q value 可以被看作模型内部的轨迹质量信号，用来判断哪条递归路径更可能通向正确答案。

这就是递归推理模型的核心悖论：如果递归轨迹正确，它可以越想越清楚；如果早期想偏了，它也可能越想越固执。RRM 的问题不只是“能不能想得更久”，还包括“想偏了以后能不能换条路”。

HRM-Text：把分层递归推向语言预训练

HRM-Text 的贡献，是把 HRM 的分层递归思想推向语言模型预训练。相比固定格式的 Sudoku、Maze、ARC，语言建模的状态空间更大、上下文更复杂、优化更不稳定，因此 HRM-Text 的核心挑战是：如何让深递归在语言尺度上稳定工作。

HRM-Text 仍然采用 dual-timescale recurrence：高层状态由输入 token embedding 初始化，低层状态固定初始化；核心计算包含两个高层 cycle，每个 cycle 内执行三次快速 $L$ 模块更新，再执行一次慢速 $H$ 模块更新，最后用 final H state 接语言模型头输出 logits。

MagicNorm 是 HRM-Text 的关键稳定化技术。Transformer 中 PreNorm 和 PostNorm 的取舍很经典：PreNorm 保留更通畅的梯度路径，但残差可能随深度累积导致方差增长；PostNorm 能约束激活，但可能损害深层梯度流。HRM-Text 的做法是让 $H / L$ 模块内部使用 PreNorm block，并在模块末尾加入 final norm。这样，前向经过许多循环步时，最终 norm 可以约束激活方差；反向传播则采用截断的时间窗口，也就是不沿着所有循环步完整反传，而只回传最近几个 recurrent steps 的梯度。这样，梯度主要穿过较短路径，仍能保留 PreNorm 身份路径带来的优化稳定性。

HRM-Text 还使用 warmup deep credit assignment。训练早期只对最近较少的循环步反传梯度，随后逐步把这个反传时间窗口扩展到更多循环步。论文具体设置为：早期只对最后两个 recurrent steps 反传，随后线性预热到最后五个 steps。这相当于给递归模型安排一个时间课程：先学短程细化，等状态转移稳定后，再让梯度覆盖更长的递归计算路径。

HRM-Text 的目标函数也被重新设计。它没有沿用标准的大规模 raw-text next-token pretraining，而是从头在 instruction-response pairs 上训练，只优化回答部分：
$\mathcal{L} = - \log P_{\theta}(x_a \mid x_q)$

这样做的哲学很明确：如果模型最终主要用于条件生成，那训练时就应该把预算集中到“给定问题生成回答”上，而不是把大量更新花在预测 prompt 或任务无关文本上。

PrefixLM mask 进一步让 instruction token 之间可以双向注意，response 仍保持因果生成。这是一种自然折中：问题部分应当被充分理解，答案部分仍需按生成顺序展开。

论文报告，HRM-Text 1B 从头训练，使用 40B unique tokens、总训练约 60B tokens，在若干 benchmark 上接近或超过部分 2–7B 开源模型，同时估计使用显著更少的 tokens 和 compute。这个结果更适合被理解为“架构与目标共同设计可以显著提高预训练效率”的存在性证明，而不是最终语言模型范式的定论。

PTRM：给隐状态一点逃逸速度

如果 HRM-Text 解决的是“确定性递归如何稳定训练”，PTRM 解决的是另一个问题：确定性递归推断时陷入坏盆地怎么办？

PTRM 的想法非常直接：在推断期跑 $K$ 条并行轨迹，每条轨迹在每个深层递归块的 latent input 上注入高斯噪声。这里的深层递归块可以理解为一次“先多次更新推理状态 $z$ 、再更新答案状态 $y$ ”的完整递归单元；它通常对应 TRM / PTRM 论文中的一个监督步，但重点强调的是推断期实际展开的递归计算，而不是训练时产生监督 loss 的动作：
$\begin{aligned} z_{t-1}^{(k)} &\leftarrow z_{t-1}^{(k)} + \epsilon_t^{(k)}, \\ \epsilon_t^{(k)} &\sim \mathcal{N}(0, \sigma^2 I) \end{aligned}$

随后执行 TRM 的递归更新：
$z_t^{(k)}, y_t^{(k)} \leftarrow \mathrm{rec}(x, z_{t-1}^{(k)}, y_{t-1}^{(k)})$

最后，用输出头产生候选答案，用 Q head 给每条轨迹打分：
$\begin{aligned} \hat{y}^{(k)} &= \arg\max f_O(y_D^{(k)}), \\ \hat{q}^{(k)} &= f_Q(y_D^{(k)}) \end{aligned}$

并选择最高 Q 的候选：
$k^\star = \arg\max_k \hat{q}^{(k)}$

噪声让轨迹有机会逃离坏盆地，进入另一片可能解码为正确答案的区域。最后，PTRM 不需要额外训练评估器，而是复用 TRM 中联合训练的 Q head。这个 Q head 原本用于 ACT（Adaptive Computation Time，自适应计算时间）/ early stopping（提前停止）：训练时，模型每完成一个递归监督步，都会用 Q head 估计“当前答案是否已经足够正确”。如果分数超过阈值，就可以认为这个样本已经解出来，提前停止继续递归，避免把计算浪费在已经正确的样本上。PTRM 则把这个原本用于“何时停止”的信号，改造成推断期的轨迹选择器。

这一步非常关键：PTRM 把原本训练时的“停止信号”改造成推断期的“价值评估器”。论文中的轨迹分析显示，Q value 与 cell accuracy 在正确轨迹上同步上升，在错误轨迹上保持较低，因此可以作为学到的质量信号。不过，论文也指出 Q head 并非在所有任务上都足够强；例如 Maze-Hard 中 pass@K 和 best-Q@K 之间仍有差距，这意味着未来还需要更强的答案验证器。

PTRM 的价值在于它几乎不要求改变训练过程。它不是重新训练一个概率模型，也不是为每个任务设计输入扰动，而是在推断期给原本确定性的递归系统加上一点随机性，再用模型已有的 Q head 选路。这带来的启示非常重要：递归模型的推断期 scaling 不只有“更深”，还可以有“更宽”。Depth 是多想几步，Width 是同时换几种想法。

GRAM：让噪声拥有方向感

PTRM 的噪声是固定各向同性高斯，优点是零重训、简单有效；缺点也明显：它不知道该往哪儿推。GRAM 则把这个问题向前推进一步：既然噪声能帮助逃逸，为什么不把噪声本身也学出来？

GRAM 把递归推理建模为随机隐轨迹：
$\tau = (z_1, z_2, \dots, z_T)$

模型不再学习一个确定性映射，而是学习一个轨迹分布：
$p_{\theta}(y \mid x) = \int p_{\theta}(y \mid \tau, x) p_{\theta}(\tau \mid x) d\tau$

由于直接边缘化所有轨迹不可行，GRAM 使用 amortized variational inference，引入后验 $q_{\phi}(\tau \mid x, y)$ ，通过 ELBO 训练 prior 与 posterior。需要注意的是，论文实际实现中还结合了深监督和 truncated gradient propagation，所以实际优化目标是截断的 surrogate ELBO，而不是完整轨迹 ELBO 的无偏精确计算。

在结构上，GRAM 也采用 $h, l$ 分层。低层 $l$ 进行 $K$ 次确定性细化，高层先给出确定性 proposal：
$u_t = f_H(h_{t-1}, l_t)$

然后加入可学习的随机残差引导：
$\begin{aligned} \epsilon_t &\sim \mathcal{N}(\mu_{\theta}(u_t), \sigma_{\theta}^{2}(u_t) I), \\ h_t &= u_t + \epsilon_t \end{aligned}$

也就是说，GRAM 的噪声不再是“随便抖一下”，而是状态相关的：均值 $\mu_{\theta}(u_t)$ 决定往哪里偏，方差 $\sigma_{\theta}^{2}(u_t)$ 决定探索多大。

这个设计中，确定性 proposal $u_t$ 保留了递归细化的稳定骨架；随机残差引导则提供了跳出单一路径的能力。它既不是完全随机搜索，也不是僵硬的确定性迭代，而是一种可学习的随机导航。

GRAM 的意义不只是“比 PTRM 更复杂”。它把 RRM 从确定性动力系统升级成了概率生成模型：不再是一个输入对应一条思路，而是一个输入对应一个思路分布。对于 N-Queens、Graph Coloring 这类多解问题，这种多轨迹能力尤其自然。论文还进一步展示了 unconditional generation：在固定或缺失输入的情况下，模型也可以通过递归 prior 生成 $p_\theta(x)$ ，例如从空 Sudoku 棋盘生成满足约束的完整棋盘，或在 binarized MNIST 上逐步生成数字图像。

在推断期，GRAM 同样支持 depth 和 width 两个 scaling 轴：depth 来自更多递归转移，width 来自并行采样多条 latent trajectories。与 PTRM 复用 Q head 不同，GRAM 在并行采样后使用 Latent Process Reward Model（LPRM）预测输出正确性，从而选择更好的轨迹。

Hyperloop Transformer：循环作为参数效率策略

如果说 HRM、TRM、PTRM、GRAM 更关注“如何推理”，Hyperloop Transformer 更关注“如何让 Transformer 在参数上更高效”。它采用 begin-middle-end 的结构，只循环 middle block；同时把残差流扩展成多个并行流，并在 loop 级别加入 hyper-connections。

它和 RRM 的共同点在于：都相信共享计算模块可以带来更深的有效计算，而不线性增加参数。不同点在于，Hyperloop 主要面向语言建模的参数与内存效率，而非显式 puzzle reasoning。

普通 looped Transformer 的问题在于，严格共享参数可能限制表示灵活性。每一轮 loop 都使用同一个中间 block，虽然节省参数，但不同深度位置的计算难以差异化。Hyperloop 的思路是：仍然共享主干计算，但通过 hyper-connections 让 looped middle block 的表示在不同 loop iteration 中更灵活。

论文采用 loop-level hyper-connections，而不是 layer-level hyper-connections，因此只在每次 loop 之后施加连接，带来较小额外参数与计算成本。实验中，Hyperloop Transformer 在多个规模上以大约一半参数达到或超过 depth-matched ordinary Transformer 的 perplexity，并且在 post-training quantization 后收益仍然存在。

这可以理解为一种折中：既不回到完全 unshared 的深层 Transformer，也不接受普通 looped Transformer 的僵硬共享，而是在参数共享与深度表达力之间找到更好的平衡。

统一视角：推断期 Scaling 的新公式

把这些工作放在一起看，可以得到一个清晰的演进链条。

Looped 与 Recursive Transformer 证明了共享参数可以增加有效深度。HRM 把循环变成双时间尺度隐空间推理，用分层收敛、深监督和 ACT 打开小样本复杂推理。TRM 去掉复杂层级解释，用一个极小网络同时维护当前答案 $y$ 和推理草稿 $z$ ，证明循环细化本身就是强机制。HRM-Text 把分层递归推向语言预训练，并通过 MagicNorm、warmup deep credit assignment、response-only loss 和 PrefixLM 稳定训练。PTRM 在推断期加入随机扰动，用 Q head 选择好轨迹，打开 width scaling。GRAM 把随机轨迹概率化、可学习化，用变分训练和 LPRM 形成生成式递归推理框架。Hyperloop 则从语言模型架构角度证明，循环与 hyper-connections 可以推动参数效率前沿。

于是，新的推理公式不再只是：
$\text{推理} = \text{更多参数} + \text{更多 token}$

而更像是：
$\text{推理} = \text{隐式循环深度} + \text{并行轨迹宽度} + \text{评估器引导}$
即，深度负责多想几步，宽度负责多想几条路，评估器负责知道哪条路更靠谱。

小模型为什么能够逆袭

这类工作之所以令人兴奋，不只是因为“小模型打败大模型”的戏剧性，而是因为它们重新打开了一个长期被 scaling law 压住的问题：智能是否只能来自更大的参数和更多的 token？

RRM 给出的回答是：不一定。智能也可能来自计算组织方式。一个模型即使参数很少，只要它能在隐空间中持续维护状态、传播约束、修正假设、采样多条轨迹，并用学好的评估器评估结果，就可能在特定复杂推理任务上表现出远超参数规模的能力。

HRM 告诉我们，分层时间尺度可以让小模型获得接近深度搜索的能力；TRM 告诉我们，哪怕去掉复杂层级，一个答案状态加一个推理状态，也能构成强大的隐式工作空间；PTRM 和 GRAM 进一步告诉我们，推理不仅需要深度，还需要多路径探索和路径评估；HRM-Text 与 Hyperloop 则把这条路线推向语言建模和参数效率。

这可以类比人类解题。一个人不需要每次思考都说出完整过程，也不需要大脑临时变大；他需要的是能在脑中维持一个工作空间，在其中尝试、回滚、修正、比较不同方案。RRM 正是在神经网络中重建这种工作空间。

当然，这条路线还远没有完成。它仍面临不少开放问题：如何把 puzzle reasoning 的成功稳定迁移到开放域语言和多模态任务？如何避免随机轨迹采样带来的推断成本膨胀？如何训练真正通用、可靠、可校准的评估器？如何把 RRM 与现有 LLM 的知识、工具调用、长上下文能力结合？

但至少可以看到，过去的大模型像一座越来越大的图书馆，知识丰富，却每次推理都要边走边念出路线；RRM 更像是在图书馆内部修了一套高速电梯和导航系统，先在脑中穿梭搜索，最后只把答案递出来。未来的高效 AI，很可能不是一个永远变大的单体巨兽，而是一类会在隐空间中反复思考、并行试探、自我评估的小而深的系统。