循环推理模型:把思考搬进隐空间

为什么要把推理搬进隐空间
过去几年,AI 推理的主流叙事几乎被一个公式统治:更大的模型、更多的数据、更长的 Chain-of-Thought、更昂贵的推断期采样。大模型像一台巨型印刷机,把“思考”显式写成一串串 token;推理越复杂,吐出的 token 越多,KV cache、显存带宽和延迟也随之膨胀。
循环推理模型给出了另一条路线:推理不一定要完全写出来,也可以在隐空间里反复打草稿。Recursive Reasoning Models(RRM)的共同目标,是把推理计算从“输出序列长度”里部分解耦出来。模型不再只能靠不断追加文字来延长计算,而是在一个持续存在的隐状态中反复更新、检查、修正,最后再输出答案。
这个范式可以用一个最小公式表示:
z t = f θ ( z t − 1 , x ) z_t = f_{\theta}(z_{t-1}, x) zt=fθ(zt−1,x)
其中, x x x 是输入约束, z t z_t zt 是第 t t t 步隐状态, f θ f_{\theta} fθ 是共享的状态转移函数。关键不在于这个公式复杂,而在于它改变了 scaling 的对象:参数规模可以不变,最终输出长度可以不变,但内部计算深度可以继续增加。
HRM、TRM、PTRM、GRAM、HRM-Text 和 Hyperloop Transformer 都可以放进这个谱系里看。它们并不完全解决同一个问题:HRM/TRM 主要展示小模型在结构化 puzzle reasoning 上的强泛化;PTRM 和 GRAM 进一步处理确定性递归的坏盆地与多轨迹探索;HRM-Text 把分层递归推向语言预训练;Hyperloop 则从语言模型参数效率角度研究循环中间块和 hyper-connections。
循环并不否定自回归
这里需要先澄清一个常见误解:循环推理模型并不是要放弃自回归语言模型对 token 间依赖关系的建模。自回归模型的核心分解是:
p ( y ∣ x ) = ∏ i p ( y i ∣ x , y < i ) p(y \mid x) = \prod_i p(y_i \mid x, y_{\lt i}) p(y∣x)=i∏p(yi∣x,y<i)
也就是说,第 i i i 个 token 依赖输入 x x x 和之前已经生成的 token y < i y_{\lt i} y<i。这种因果依赖对于开放式文本生成极其重要,循环模型并不天然否定它。真正变化的是“每次预测前可以做多少内部计算”。普通自回归 Transformer 大致是在给定上下文后计算一次表示,再预测下一个 token:
H = F θ ( x , y < i ) , p ( y i ∣ x , y < i ) = s o f t m a x ( W H i ) \begin{aligned} H &= F_{\theta}(x, y_{\lt i}), \\ p(y_i \mid x, y_{\lt i}) &= \mathrm{softmax}(W H_i) \end{aligned} Hp(yi∣x,y<i)=Fθ(x,y<i),=softmax(WHi)
循环模型则可以在预测前对同一段上下文的隐表示反复精炼:
Z 0 = E m b e d ( x , y < i ) , Z t = f θ ( Z t − 1 , x , y < i ) , p ( y i ∣ x , y < i ) = s o f t m a x ( W Z T [ i ] ) \begin{aligned} Z_0 &= \mathrm{Embed}(x, y_{\lt i}), \\ Z_t &= f_{\theta}(Z_{t-1}, x, y_{\lt i}), \\ p(y_i \mid x, y_{\lt i}) &= \mathrm{softmax}(W Z_T[i]) \end{aligned} Z0Ztp(yi∣x,y<i)=Embed(x,y<i),=fθ(Zt−1,x,y<i),=softmax(WZT[i])
这里的 Z t Z_t Zt 通常不是一个单点向量,而是整段 token 序列的隐表示矩阵:
Z t ∈ R L × d Z_t \in \mathbb{R}^{L \times d} Zt∈RL×d
因此,循环发生在“深度 / 时间维”上,而不是把 token 维度抹掉。每一轮循环仍然可以通过 masked attention、gated attention、MLP 或其他模块传播 token 间信息;只要 attention mask 设计正确,因果依赖仍然成立。
所以,自回归和循环并不是互斥关系。自回归定义的是 token 生成顺序,循环定义的是每次生成或最终预测前的隐空间计算深度。一个循环语言模型完全可以仍然是自回归的,只是它在 next-token prediction 前多做若干轮内部细化。它和传统自回归模型竞争的原因,不是它不再建模 token 依赖,而是它把一部分推理计算从显式 token 链转移到了隐状态循环里。
从 HRM 到 TRM:循环推理的两条原型路线
HRM 是“分层双时间尺度”的原型,TRM 则是“极简递归精炼”的原型。前者强调类似慢速规划与快速执行的双层递归,后者则把这种解释剥离到最小:只保留输入、当前答案和隐式推理状态,让一个极小网络反复改进答案。
HRM 的结构包含四个可学习组件:输入网络 f I f_I fI、低层循环模块 f L f_L fL、高层循环模块 f H f_H fH 和输出网络 f O f_O fO。输入先被投影到工作表示:
x ~ = f I ( x ; θ I ) \tilde{x} = f_I(x; \theta_I) x~=fI(x;θI)
低层状态在细粒度时间步更新:
z L i = f L ( z L i − 1 , z H i − 1 , x ~ ; θ L ) z_L^i = f_L(z_L^{i-1}, z_H^{i-1}, \tilde{x}; \theta_L) zLi=fL(zLi−1,zHi−1,x~;θL)
但高层状态不是每一步都更新,而是只在低层循环结束时更新:
z H i = { f H ( z H i − 1 , z L i ; θ H ) , i ≡ 0 ( m o d T ) z H i − 1 , otherwise z_H^i = \begin{cases} f_H(z_H^{i-1}, z_L^i; \theta_H), & i \equiv 0 \pmod T \\ z_H^{i-1}, & \text{otherwise} \end{cases} zHi={fH(zHi−1,zLi;θH),zHi−1,i≡0(modT)otherwise
最后输出由高层状态读出:
y ^ = f O ( z H N T ; θ O ) \hat{y} = f_O(z_H^{NT}; \theta_O) y^=fO(zHNT;θO)
这个结构的核心不是简单“多跑几层”,而是论文所称的 hierarchical convergence:低层 L L L 模块会在当前高层背景下趋向局部平衡;高层 H H H 模块随后吸收低层结果,改变全局上下文,相当于把低层计算重新引导到新的局部问题上。这样,模型试图避免普通 RNN 过早收敛到单一固定点的问题:低层可以局部稳定,高层又能不断重置和推进搜索阶段。
HRM 的另一个关键是训练方式。完整 BPTT 需要沿时间保存所有中间状态,内存成本随递归步数增长。HRM 使用 one-step gradient approximation:只让梯度穿过最后的局部计算路径,并把较早状态视为常量。其理论动机来自深度平衡模型中的隐函数观点:
∂ z H ⋆ ∂ θ = ( I − J F ) − 1 ∂ F ∂ θ \frac{\partial z_H^\star}{\partial \theta} = (I - J_F)^{-1} \frac{\partial F}{\partial \theta} ∂θ∂zH⋆=(I−JF)−1∂θ∂F
再用一阶近似:
( I − J F ) − 1 ≈ I (I - J_F)^{-1} \approx I (I−JF)−1≈I
这使得训练内存从随时间增长,变成近似常数级。需要注意的是,TRM 论文后来对这一固定点假设提出了质疑:它认为 HRM 在实际超参数下未必真的达到固定点。因此,更稳妥的说法是:HRM 使用固定点理论作为 one-step gradient 的动机,而不是证明实际训练轨迹必然已经收敛到精确固定点。
HRM 通过深监督把多个前向计算分段串起来:每个计算分段都输出一次答案并产生监督信号,结束后把隐状态 detach,再作为下一个计算分段的初始状态。这样,模型不需要一次性反传完整深链路,却可以在功能上获得很深的有效计算。
TRM 则对 HRM 做了非常有价值的“去神秘化”。TRM 作者认为,HRM 的两个状态可以更简单地理解为“当前答案表示”和“不可直接解码的推理状态”。因此不必强调复杂的生物层级,也不必强依赖固定点解释。只需要保留三个对象:输入 x x x、当前预测答案 y y y、隐式推理状态 z z z。
TRM 的核心过程可以写成:
z ← f θ ( x + y + z ) 重复 n 次 z \leftarrow f_\theta(x + y + z) \quad \text{重复 } n \text{ 次} z←fθ(x+y+z)重复 n 次
然后更新答案状态:
y ← f θ ( y + z ) y \leftarrow f_\theta(y + z) y←fθ(y+z)
这套过程再通过深监督重复多次。每次监督步都把上一轮的 y y y 和 z z z 作为初始化,让模型学会基于已有答案继续修正。从这个角度看,TRM 的 z z z 扮演类似隐式 Chain-of-Thought 的角色,而 y y y 则保留当前可解码答案。
TRM 的关键贡献在于证明:循环推理的强大能力并不一定来自复杂的分层解释。一个两层 tiny network,只要反复改进 latent 和 answer,并配合深监督,就可以在小数据 puzzle reasoning 上取得强泛化。
TRM 还指出,深监督可能是 HRM 成功的主要驱动力之一。论文引用的 ARC-AGI 独立分析显示,深监督对性能贡献很大,而单个监督步内的递归层级收益相对较小。这个观点不等于否定递归,而是提醒,循环推理模型的能力来自递归结构、状态携带、深监督、训练稳定性和评估 / 停止机制的组合。
双时间尺度与单网络递归
把 HRM 和 TRM 放在一起看,会发现循环推理模型正在形成两种互补哲学。
HRM 走的是“结构先验”路线。它相信复杂推理需要一个慢速战略层和一个快速执行层:高层 H H H 负责抽象计划、任务目标和全局约束,低层 L L L 负责局部传播、细节计算和短程搜索。这种设计适合解释为多时间尺度系统,也为后续 HRM-Text 和 GRAM 的分层结构提供了骨架。
TRM 走的是“最小机制”路线。它把问题简化为:给定输入 x x x、当前答案 y y y 和推理草稿 z z z,模型能否通过多次递归把 z z z 变得更有用,再把 y y y 改得更正确?答案是可以。TRM 的成功说明,在很多强约束任务中,关键不只是模型是否拥有庞大参数,而是它是否拥有一个可持续改写的工作空间。
这两条路线并不冲突。HRM 更像是对复杂认知结构的建模,TRM 更像是对循环推理最小充分条件的提炼。前者告诉我们为什么多时间尺度可能有用,后者告诉我们即使去掉生物解释和显式层级,递归精炼本身也足够强大。
确定性递归的两大反派
隐空间循环听起来优雅,但它天然面对两个技术反派。
第一个反派是深时间轴上的梯度不稳定。如果把同一个模块反复应用 T T T 次,反向传播会遇到雅可比矩阵连乘:
∂ z T ∂ z 0 = ∏ t = 1 T ∂ z t ∂ z t − 1 \frac{\partial z_T}{\partial z_0} = \prod_{t=1}^{T} \frac{\partial z_t}{\partial z_{t-1}} ∂z0∂zT=t=1∏T∂zt−1∂zt
当这个乘积的谱半径长期小于 1 1 1,梯度消失;长期大于 1 1 1,梯度爆炸。对普通深层网络来说,这已经棘手;对共享参数的递归网络来说,这种不稳定会被时间维度反复放大。
第二个反派是确定性坏盆地。标准递归是确定性的:给定输入 x x x 和初始状态 z 0 z_0 z0,轨迹唯一。模型一旦在早期更新中进入错误吸引子,后续步骤可能只是围着错误状态打转。PTRM 对 TRM 的轨迹分析显示,失败样本常常不是完全没学会,而是进入了错误盆地;延迟成功样本则会在某个监督步突然逃逸到更好的盆地。PTRM 论文观察到,Q value (指 TRM 的 Q head 对“当前答案是否已经正确”的内部打分)和 cell accuracy (指当前预测答案中有多少个格子 / 位置与标准答案一致)两个量在递归轨迹上通常一起升高或一起停滞:答案越接近正确,Q head 给出的分数也越高。因此,Q value 可以被看作模型内部的轨迹质量信号,用来判断哪条递归路径更可能通向正确答案。
这就是递归推理模型的核心悖论:如果递归轨迹正确,它可以越想越清楚;如果早期想偏了,它也可能越想越固执。RRM 的问题不只是“能不能想得更久”,还包括“想偏了以后能不能换条路”。
HRM-Text:把分层递归推向语言预训练
HRM-Text 的贡献,是把 HRM 的分层递归思想推向语言模型预训练。相比固定格式的 Sudoku、Maze、ARC,语言建模的状态空间更大、上下文更复杂、优化更不稳定,因此 HRM-Text 的核心挑战是:如何让深递归在语言尺度上稳定工作。
HRM-Text 仍然采用 dual-timescale recurrence:高层状态由输入 token embedding 初始化,低层状态固定初始化;核心计算包含两个高层 cycle,每个 cycle 内执行三次快速 L L L 模块更新,再执行一次慢速 H H H 模块更新,最后用 final H state 接语言模型头输出 logits。
MagicNorm 是 HRM-Text 的关键稳定化技术。Transformer 中 PreNorm 和 PostNorm 的取舍很经典:PreNorm 保留更通畅的梯度路径,但残差可能随深度累积导致方差增长;PostNorm 能约束激活,但可能损害深层梯度流。HRM-Text 的做法是让 H / L H/L H/L 模块内部使用 PreNorm block,并在模块末尾加入 final norm。这样,前向经过许多循环步时,最终 norm 可以约束激活方差;反向传播则采用截断的时间窗口,也就是不沿着所有循环步完整反传,而只回传最近几个 recurrent steps 的梯度。这样,梯度主要穿过较短路径,仍能保留 PreNorm 身份路径带来的优化稳定性。
HRM-Text 还使用 warmup deep credit assignment。训练早期只对最近较少的循环步反传梯度,随后逐步把这个反传时间窗口扩展到更多循环步。论文具体设置为:早期只对最后两个 recurrent steps 反传,随后线性预热到最后五个 steps。这相当于给递归模型安排一个时间课程:先学短程细化,等状态转移稳定后,再让梯度覆盖更长的递归计算路径。
HRM-Text 的目标函数也被重新设计。它没有沿用标准的大规模 raw-text next-token pretraining,而是从头在 instruction-response pairs 上训练,只优化回答部分:
L = − log P θ ( x a ∣ x q ) \mathcal{L} = - \log P_{\theta}(x_a \mid x_q) L=−logPθ(xa∣xq)
这样做的哲学很明确:如果模型最终主要用于条件生成,那训练时就应该把预算集中到“给定问题生成回答”上,而不是把大量更新花在预测 prompt 或任务无关文本上。
PrefixLM mask 进一步让 instruction token 之间可以双向注意,response 仍保持因果生成。这是一种自然折中:问题部分应当被充分理解,答案部分仍需按生成顺序展开。
论文报告,HRM-Text 1B 从头训练,使用 40B unique tokens、总训练约 60B tokens,在若干 benchmark 上接近或超过部分 2–7B 开源模型,同时估计使用显著更少的 tokens 和 compute。这个结果更适合被理解为“架构与目标共同设计可以显著提高预训练效率”的存在性证明,而不是最终语言模型范式的定论。
PTRM:给隐状态一点逃逸速度
如果 HRM-Text 解决的是“确定性递归如何稳定训练”,PTRM 解决的是另一个问题:确定性递归推断时陷入坏盆地怎么办?
PTRM 的想法非常直接:在推断期跑 K K K 条并行轨迹,每条轨迹在每个深层递归块的 latent input 上注入高斯噪声。这里的深层递归块可以理解为一次“先多次更新推理状态 z z z、再更新答案状态 y y y”的完整递归单元;它通常对应 TRM / PTRM 论文中的一个监督步,但重点强调的是推断期实际展开的递归计算,而不是训练时产生监督 loss 的动作:
z t − 1 ( k ) ← z t − 1 ( k ) + ϵ t ( k ) , ϵ t ( k ) ∼ N ( 0 , σ 2 I ) \begin{aligned} z_{t-1}^{(k)} &\leftarrow z_{t-1}^{(k)} + \epsilon_t^{(k)}, \\ \epsilon_t^{(k)} &\sim \mathcal{N}(0, \sigma^2 I) \end{aligned} zt−1(k)ϵt(k)←zt−1(k)+ϵt(k),∼N(0,σ2I)
随后执行 TRM 的递归更新:
z t ( k ) , y t ( k ) ← r e c ( x , z t − 1 ( k ) , y t − 1 ( k ) ) z_t^{(k)}, y_t^{(k)} \leftarrow \mathrm{rec}(x, z_{t-1}^{(k)}, y_{t-1}^{(k)}) zt(k),yt(k)←rec(x,zt−1(k),yt−1(k))
最后,用输出头产生候选答案,用 Q head 给每条轨迹打分:
y ^ ( k ) = arg max f O ( y D ( k ) ) , q ^ ( k ) = f Q ( y D ( k ) ) \begin{aligned} \hat{y}^{(k)} &= \arg\max f_O(y_D^{(k)}), \\ \hat{q}^{(k)} &= f_Q(y_D^{(k)}) \end{aligned} y^(k)q^(k)=argmaxfO(yD(k)),=fQ(yD(k))
并选择最高 Q 的候选:
k ⋆ = arg max k q ^ ( k ) k^\star = \arg\max_k \hat{q}^{(k)} k⋆=argkmaxq^(k)
噪声让轨迹有机会逃离坏盆地,进入另一片可能解码为正确答案的区域。最后,PTRM 不需要额外训练评估器,而是复用 TRM 中联合训练的 Q head。这个 Q head 原本用于 ACT(Adaptive Computation Time,自适应计算时间)/ early stopping(提前停止):训练时,模型每完成一个递归监督步,都会用 Q head 估计“当前答案是否已经足够正确”。如果分数超过阈值,就可以认为这个样本已经解出来,提前停止继续递归,避免把计算浪费在已经正确的样本上。PTRM 则把这个原本用于“何时停止”的信号,改造成推断期的轨迹选择器。
这一步非常关键:PTRM 把原本训练时的“停止信号”改造成推断期的“价值评估器”。论文中的轨迹分析显示,Q value 与 cell accuracy 在正确轨迹上同步上升,在错误轨迹上保持较低,因此可以作为学到的质量信号。不过,论文也指出 Q head 并非在所有任务上都足够强;例如 Maze-Hard 中 pass@K 和 best-Q@K 之间仍有差距,这意味着未来还需要更强的答案验证器。
PTRM 的价值在于它几乎不要求改变训练过程。它不是重新训练一个概率模型,也不是为每个任务设计输入扰动,而是在推断期给原本确定性的递归系统加上一点随机性,再用模型已有的 Q head 选路。这带来的启示非常重要:递归模型的推断期 scaling 不只有“更深”,还可以有“更宽”。Depth 是多想几步,Width 是同时换几种想法。
GRAM:让噪声拥有方向感
PTRM 的噪声是固定各向同性高斯,优点是零重训、简单有效;缺点也明显:它不知道该往哪儿推。GRAM 则把这个问题向前推进一步:既然噪声能帮助逃逸,为什么不把噪声本身也学出来?
GRAM 把递归推理建模为随机隐轨迹:
τ = ( z 1 , z 2 , … , z T ) \tau = (z_1, z_2, \dots, z_T) τ=(z1,z2,…,zT)
模型不再学习一个确定性映射,而是学习一个轨迹分布:
p θ ( y ∣ x ) = ∫ p θ ( y ∣ τ , x ) p θ ( τ ∣ x ) d τ p_{\theta}(y \mid x) = \int p_{\theta}(y \mid \tau, x) p_{\theta}(\tau \mid x) d\tau pθ(y∣x)=∫pθ(y∣τ,x)pθ(τ∣x)dτ
由于直接边缘化所有轨迹不可行,GRAM 使用 amortized variational inference,引入后验 q ϕ ( τ ∣ x , y ) q_{\phi}(\tau \mid x, y) qϕ(τ∣x,y),通过 ELBO 训练 prior 与 posterior。需要注意的是,论文实际实现中还结合了 深监督 和 truncated gradient propagation,所以实际优化目标是截断的 surrogate ELBO,而不是完整轨迹 ELBO 的无偏精确计算。
在结构上,GRAM 也采用 h , l h,l h,l 分层。低层 l l l 进行 K K K 次确定性细化,高层先给出确定性 proposal:
u t = f H ( h t − 1 , l t ) u_t = f_H(h_{t-1}, l_t) ut=fH(ht−1,lt)
然后加入可学习的随机残差引导:
ϵ t ∼ N ( μ θ ( u t ) , σ θ 2 ( u t ) I ) , h t = u t + ϵ t \begin{aligned} \epsilon_t &\sim \mathcal{N}(\mu_{\theta}(u_t), \sigma_{\theta}^{2}(u_t) I), \\ h_t &= u_t + \epsilon_t \end{aligned} ϵtht∼N(μθ(ut),σθ2(ut)I),=ut+ϵt
也就是说,GRAM 的噪声不再是“随便抖一下”,而是状态相关的:均值 μ θ ( u t ) \mu_{\theta}(u_t) μθ(ut) 决定往哪里偏,方差 σ θ 2 ( u t ) \sigma_{\theta}^{2}(u_t) σθ2(ut) 决定探索多大。
这个设计中,确定性 proposal u t u_t ut 保留了递归细化的稳定骨架;随机残差引导则提供了跳出单一路径的能力。它既不是完全随机搜索,也不是僵硬的确定性迭代,而是一种可学习的随机导航。
GRAM 的意义不只是“比 PTRM 更复杂”。它把 RRM 从确定性动力系统升级成了概率生成模型:不再是一个输入对应一条思路,而是一个输入对应一个思路分布。对于 N-Queens、Graph Coloring 这类多解问题,这种多轨迹能力尤其自然。论文还进一步展示了 unconditional generation:在固定或缺失输入的情况下,模型也可以通过递归 prior 生成 p θ ( x ) p_\theta(x) pθ(x),例如从空 Sudoku 棋盘生成满足约束的完整棋盘,或在 binarized MNIST 上逐步生成数字图像。
在推断期,GRAM 同样支持 depth 和 width 两个 scaling 轴:depth 来自更多递归转移,width 来自并行采样多条 latent trajectories。与 PTRM 复用 Q head 不同,GRAM 在并行采样后使用 Latent Process Reward Model(LPRM)预测输出正确性,从而选择更好的轨迹。
Hyperloop Transformer:循环作为参数效率策略
如果说 HRM、TRM、PTRM、GRAM 更关注“如何推理”,Hyperloop Transformer 更关注“如何让 Transformer 在参数上更高效”。它采用 begin-middle-end 的结构,只循环 middle block;同时把残差流扩展成多个并行流,并在 loop 级别加入 hyper-connections。
它和 RRM 的共同点在于:都相信共享计算模块可以带来更深的有效计算,而不线性增加参数。不同点在于,Hyperloop 主要面向语言建模的参数与内存效率,而非显式 puzzle reasoning。
普通 looped Transformer 的问题在于,严格共享参数可能限制表示灵活性。每一轮 loop 都使用同一个中间 block,虽然节省参数,但不同深度位置的计算难以差异化。Hyperloop 的思路是:仍然共享主干计算,但通过 hyper-connections 让 looped middle block 的表示在不同 loop iteration 中更灵活。
论文采用 loop-level hyper-connections,而不是 layer-level hyper-connections,因此只在每次 loop 之后施加连接,带来较小额外参数与计算成本。实验中,Hyperloop Transformer 在多个规模上以大约一半参数达到或超过 depth-matched ordinary Transformer 的 perplexity,并且在 post-training quantization 后收益仍然存在。
这可以理解为一种折中:既不回到完全 unshared 的深层 Transformer,也不接受普通 looped Transformer 的僵硬共享,而是在参数共享与深度表达力之间找到更好的平衡。
统一视角:推断期 Scaling 的新公式
把这些工作放在一起看,可以得到一个清晰的演进链条。
Looped 与 Recursive Transformer 证明了共享参数可以增加有效深度。HRM 把循环变成双时间尺度隐空间推理,用分层收敛、深监督和 ACT 打开小样本复杂推理。TRM 去掉复杂层级解释,用一个极小网络同时维护当前答案 y y y 和推理草稿 z z z,证明循环细化本身就是强机制。HRM-Text 把分层递归推向语言预训练,并通过 MagicNorm、warmup deep credit assignment、response-only loss 和 PrefixLM 稳定训练。PTRM 在推断期加入随机扰动,用 Q head 选择好轨迹,打开 width scaling。GRAM 把随机轨迹概率化、可学习化,用变分训练和 LPRM 形成生成式递归推理框架。Hyperloop 则从语言模型架构角度证明,循环与 hyper-connections 可以推动参数效率前沿。
于是,新的推理公式不再只是:
推理 = 更多参数 + 更多 token \text{推理} = \text{更多参数} + \text{更多 token} 推理=更多参数+更多 token
而更像是:
推理 = 隐式循环深度 + 并行轨迹宽度 + 评估器引导 \text{推理} = \text{隐式循环深度} + \text{并行轨迹宽度} + \text{评估器引导} 推理=隐式循环深度+并行轨迹宽度+评估器引导
即,深度负责多想几步,宽度负责多想几条路,评估器负责知道哪条路更靠谱。
小模型为什么能够逆袭
这类工作之所以令人兴奋,不只是因为“小模型打败大模型”的戏剧性,而是因为它们重新打开了一个长期被 scaling law 压住的问题:智能是否只能来自更大的参数和更多的 token?
RRM 给出的回答是:不一定。智能也可能来自计算组织方式。一个模型即使参数很少,只要它能在隐空间中持续维护状态、传播约束、修正假设、采样多条轨迹,并用学好的评估器评估结果,就可能在特定复杂推理任务上表现出远超参数规模的能力。
HRM 告诉我们,分层时间尺度可以让小模型获得接近深度搜索的能力;TRM 告诉我们,哪怕去掉复杂层级,一个答案状态加一个推理状态,也能构成强大的隐式工作空间;PTRM 和 GRAM 进一步告诉我们,推理不仅需要深度,还需要多路径探索和路径评估;HRM-Text 与 Hyperloop 则把这条路线推向语言建模和参数效率。
这可以类比人类解题。一个人不需要每次思考都说出完整过程,也不需要大脑临时变大;他需要的是能在脑中维持一个工作空间,在其中尝试、回滚、修正、比较不同方案。RRM 正是在神经网络中重建这种工作空间。
当然,这条路线还远没有完成。它仍面临不少开放问题:如何把 puzzle reasoning 的成功稳定迁移到开放域语言和多模态任务?如何避免随机轨迹采样带来的推断成本膨胀?如何训练真正通用、可靠、可校准的评估器?如何把 RRM 与现有 LLM 的知识、工具调用、长上下文能力结合?
但至少可以看到,过去的大模型像一座越来越大的图书馆,知识丰富,却每次推理都要边走边念出路线;RRM 更像是在图书馆内部修了一套高速电梯和导航系统,先在脑中穿梭搜索,最后只把答案递出来。未来的高效 AI,很可能不是一个永远变大的单体巨兽,而是一类会在隐空间中反复思考、并行试探、自我评估的小而深的系统。
参考文献
- HRM: Hierarchical Reasoning Model: https://arxiv.org/abs/2506.21734
- HRM-Text: Efficient Pretraining Beyond Scaling: https://arxiv.org/abs/2605.20613
- GRAM: Generative Recursive Reasoning: https://arxiv.org/abs/2605.19376
- TRM: Less is More: Recursive Reasoning with Tiny Networks: https://arxiv.org/abs/2510.04871
- PTRM: Probabilistic Tiny Recursive Model: https://arxiv.org/abs/2605.19943
- Hyperloop Transformers: https://arxiv.org/abs/2604.21254
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)