RAGEN-2 论文精读:多轮 Agent RL 中的“模板坍缩”——熵看不见的失败模式、互信息诊断与 SNR 机理
0. 核心贡献
这篇工作的出发点不是再提一个"更稳"的 RL 算法,而是先指出一个被现有稳定性指标系统性忽略的失败模式,再围绕它把"诊断—机理—干预"三件事一次做完。
它的三点贡献可以概括为:
- 识别并定义了 template collapse(模板坍缩):当推理在单个输入内部看似多样、但在跨输入维度上变得与输入无关时,模型就处于这种状态。它对熵类指标是不可见的。作者提出一个无需外部模型的互信息(MI)代理来检测它。
- 用 SNR(信号噪声比)机理解释了坍缩的成因:低的组内 reward 方差会削弱任务梯度,而与输入无关的正则项梯度保持恒定,于是更新被正则项主导,输入依赖度被持续抹除。论文给出了跨 reward 方差分桶的梯度分解证据。
- 提出 SNR-Aware Filtering:在每次参数更新前,按 reward 方差筛选高信号 prompt。该方法在多任务、多算法、多模型尺度、多模态上一致地提升了输入依赖度与任务表现,且几乎零额外开销。
1. 问题设定:为什么熵不足以刻画推理质量
1.1 闭环多轮 Agent RL 的符号约定
论文研究闭环多轮 agent RL:策略 πθ\pi_\thetaπθ 通过在当前策略与环境下反复 rollout 轨迹、并在采集到的经验上更新而被训练。在每个时间步 ttt,agent 观测 oto_tot,生成由推理 token ztz_tzt 和可执行动作 ata_tat 构成的响应,并获得 reward rtr_trt,形成轨迹
τ={(ot,zt,at,rt)}t=1T.\tau = \{(o_t, z_t, a_t, r_t)\}_{t=1}^{T}.τ={(ot,zt,at,rt)}t=1T.
定义两个核心随机变量:
- XXX:在第 ttt 轮生成推理之前,模型可见的完整上下文,包含 system prompt、所有历史观测 o1:to_{1:t}o1:t、历史动作 a1:t−1a_{1:t-1}a1:t−1 与历史推理 z1:t−1z_{1:t-1}z1:t−1;
- ZZZ:模型为这一轮生成的推理 token 序列(不含动作 token 与边界标记如
</think>)。
实践中大家监控两个量:用 reward 监控结果稳定性(outcome stability),用熵监控过程稳定性(reasoning process stability),并把两者都当作训练健康的证据。
1.2 熵为什么是一个有歧义的信号
熵作为推理质量的代理存在一个根本缺陷:它只衡量"同一输入下的输出分散度",无法判断推理是否真正随输入而变化。
- 当熵下降时,可能只是模型在任务上变得更专精、更确信,这是 RL 优化的自然结果;
- 当熵保持高位时,推理仍可能漂移到固定模板——在任意单个输入内看似多样,但跨输入实质相同。
第二种情况就是 template collapse,它对 reward 和熵两个指标都不可见。在多轮设置下这一风险尤为尖锐:稀疏 reward 无法区分"由输入驱动的推理"和"恰好也能成功的模板化推理",而推理链本身又很难被直接监督。
1.3 信息论分解:把推理质量摊到两个正交的轴上
论文用 Shannon 恒等式把推理的边际熵 H(Z)H(Z)H(Z) 拆开:
H(Z)=I(X;Z)+H(Z∣X),H(Z) = I(X;Z) + H(Z \mid X),H(Z)=I(X;Z)+H(Z∣X),
其中:
- H(Z∣X)H(Z \mid X)H(Z∣X) 是条件熵,即同一输入内的多样性(within-input diversity)。这正是熵类指标实际在 proxy 的量。
- I(X;Z)I(X;Z)I(X;Z) 是互信息,即推理对输入的依赖度(input dependence)。它衡量"知道了推理 ZZZ,能在多大程度上反推出是哪个输入 XXX 产生了它"。
关键观察是:熵类指标只 proxy 了 H(Z∣X)H(Z \mid X)H(Z∣X),对 I(X;Z)I(X;Z)I(X;Z) 的下降一无所知。策略完全可以维持高 H(Z∣X)H(Z \mid X)H(Z∣X),同时让 I(X;Z)I(X;Z)I(X;Z) 掉到零,产生"多样但与输入无关"的样板文。这就是 template collapse 的形式化定义。
1.4 四个推理状态(reasoning regimes)
沿这两个轴可以划出四个象限,这是全文的概念地基:
| 状态 | H(Z∣X)H(Z\mid X)H(Z∣X) | I(X;Z)I(X;Z)I(X;Z) | 含义 |
|---|---|---|---|
| Diverse Reasoning | 高 | 高 | 理想:既在输入内多样,又系统性地随输入而变 |
| Template Collapse | 高 | 低 | 表面多样、实质与输入无关——现有稳定性指标的系统性盲区 |
| Compressed Reasoning | 低 | 高 | 输入忠实,但过度确定 |
| Low-Entropy Collapse | 低 | 低 | 完全退化:确定且与输入无关 |
配图建议:论文 Figure 1(左:input-driven 与 templated 推理的对比;右:四象限)。其中 Template Collapse 唯一棘手之处在于,熵类指标可以维持高位,而输入依赖度已经坍缩——因此一个只看熵的训练者完全察觉不到。
2. 诊断手段:互信息代理指标族
2.1 真实互信息不可计算,转化为检索问题
对高维 token 序列,真实的 I(X;Z)I(X;Z)I(X;Z) 没有闭式解。论文提出一个基于检索(retrieval)的经验代理 I^(X;Z)\hat I(X;Z)I^(X;Z)。
直觉如下:I(X;Z)I(X;Z)I(X;Z) 高意味着不同输入产生可区分的推理模式;I(X;Z)I(X;Z)I(X;Z) 低意味着推理变得与输入无关——观察到 ZZZ 几乎无法判断它来自哪个 XXX,这正是 template collapse 的签名。如果推理真的坍缩成模板,那么由输入 XiX_iXi 产生的推理 ZZZ 在任何其他输入 XjX_jXj 下都应当近似等可能。
2.2 In-Batch Cross-Scoring
给定训练 rollout 中的 PPP 个 prompt、每个 prompt 采样 GGG 条推理,对每一个 (Zi,k,Xj)(Z_{i,k}, X_j)(Zi,k,Xj) 对计算 teacher-forced 对数似然,构成打分矩阵
Li,k,j=logpθ(Zi,k∣Xj).L_{i,k,j} = \log p_\theta(Z_{i,k} \mid X_j).Li,k,j=logpθ(Zi,k∣Xj).
从中提取两个长度归一化的量:
matchedi,k=Li,k,i∣Zi,k∣,marginali,k=1∣Zi,k∣log1P∑jexp(Li,k,j).\text{matched}_{i,k} = \frac{L_{i,k,i}}{|Z_{i,k}|}, \qquad \text{marginal}_{i,k} = \frac{1}{|Z_{i,k}|}\log\frac{1}{P}\sum_{j}\exp(L_{i,k,j}).matchedi,k=∣Zi,k∣Li,k,i,marginali,k=∣Zi,k∣1logP1j∑exp(Li,k,j).
其中 matchedi,k\text{matched}_{i,k}matchedi,k 是推理 Zi,kZ_{i,k}Zi,k 在其真实来源输入 XiX_iXi 下的逐 token 对数似然,marginali,k\text{marginal}_{i,k}marginali,k 则用 batch 内 prompt 的均匀混合近似边际对数似然 logpθ(Zi,k)\log p_\theta(Z_{i,k})logpθ(Zi,k)。
2.3 两个主指标
(1)Retrieval-Acc(离散、可解释):
Acc=1PG∑i=1P∑k=1GI [i=argmaxjLi,k,j].\text{Acc} = \frac{1}{PG}\sum_{i=1}^{P}\sum_{k=1}^{G}\mathbb{I}\!\left[i = \arg\max_{j} L_{i,k,j}\right].Acc=PG1i=1∑Pk=1∑GI[i=argjmaxLi,k,j].
坍缩时 Acc\text{Acc}Acc 趋于随机水平 1/P1/P1/P(P=64P=64P=64 时即 1.56%),提供了一条绝对参照线。
(2)MI-ZScore-EMA(连续、稳健):
I^(X;Z)=1PG∑i=1P∑k=1G(matchedi,k−marginali,k).\hat I(X;Z) = \frac{1}{PG}\sum_{i=1}^{P}\sum_{k=1}^{G}\left(\text{matched}_{i,k} - \text{marginal}_{i,k}\right).I^(X;Z)=PG1i=1∑Pk=1∑G(matchedi,k−marginali,k).
当推理与其来源输入的兼容性远高于与 batch 混合的兼容性时该值增大;在 template-collapse 区,许多样本满足 matchedi,k≈marginali,k\text{matched}_{i,k} \approx \text{marginal}_{i,k}matchedi,k≈marginali,k,于是 I^(X;Z)→0\hat I(X;Z) \to 0I^(X;Z)→0。再施加 z-score 归一化与 EMA 平滑(论文取 ϵ=10−3\epsilon = 10^{-3}ϵ=10−3、α=0.9\alpha = 0.9α=0.9)以稳定训练监控,即得 MI-ZScore-EMA。
2.4 代理族与验证
论文给出一个完整的代理族(Table 1),沿三个维度变化:
- turn scope:仅第一轮 vs 轨迹均匀采样;
- aggregation:离散检索 vs 连续 MI 估计;
- length normalization:逐 token vs 逐序列。
作为对照,条件熵 H(Z∣X)=−1PG∑i,kmatchedi,kH(Z\mid X) = -\frac{1}{PG}\sum_{i,k}\text{matched}_{i,k}H(Z∣X)=−PG1∑i,kmatchedi,k 与边际熵 H(Z)=−1PG∑i,kmarginali,kH(Z) = -\frac{1}{PG}\sum_{i,k}\text{marginal}_{i,k}H(Z)=−PG1∑i,kmarginali,k 也被并行记录,满足 H(Z)=I^(X;Z)+H(Z∣X)H(Z) = \hat I(X;Z) + H(Z\mid X)H(Z)=I^(X;Z)+H(Z∣X)。
验证结果(这是全文最具说服力的实证之一): 对最终任务表现做 Spearman 相关,MI 系列指标为正相关(Trajectory MI-ZScore 达 +0.39),而熵类指标为负相关(−0.11 到 −0.14)。
这意味着熵不仅是"不够灵敏"——作为推理质量信号,它的方向是反的。此外,所有代理都复用 rollout 中已有的 (Xi,Zi,k)(X_i, Z_{i,k})(Xi,Zi,k) 对,不需要任何额外的模型或推理 pass,附加开销可忽略。
配图建议:论文 Figure 8(MI 系列正相关 vs 熵系列负相关的 Spearman 柱状图)。
3. 机理:信号噪声比(SNR)视角
核心论断:当 policy gradient 更新被与输入无关的噪声、而非任务判别性信号主导(低 SNR)时,推理会漂向"输入内多样、却忽略跨输入差异"的模板。
3.1 标准目标中的关键不对称
PPO/GRPO 的标准目标含有正则项(KL 散度、熵 bonus),它们对所有输入一视同仁、与内容无关:
L(θ)=Ex,τ[A(τ,x)]−λKLDKL(πθ ∥ πref)+λHH(πθ),\mathcal{L}(\theta) = \mathbb{E}_{x,\tau}\big[A(\tau, x)\big] - \lambda_{\text{KL}} D_{\text{KL}}(\pi_\theta \,\|\, \pi_{\text{ref}}) + \lambda_H H(\pi_\theta),L(θ)=Ex,τ[A(τ,x)]−λKLDKL(πθ∥πref)+λHH(πθ),
其中 A(τ,x)A(\tau, x)A(τ,x) 是 advantage。这里的关键在于:正则项在 chain 层面对每一条推理施加相同的收缩,与其来源 prompt 或 reward 信号无关——它本质上是 input-agnostic 的。
3.2 经验观察:梯度的信号-噪声失衡
把训练 prompt 按组内 reward 方差 Var^(R∣X)\widehat{\mathrm{Var}}(R \mid X)Var (R∣X) 排序、分成六个等大分桶 Q1–Q6,测量任务目标与正则项各自贡献的梯度范数(Figure 3)。三个模式在 PPO 与 GRPO 下一致出现:
- 任务梯度随 RV 单调上升:∥gtask∥\|g_{\text{task}}\|∥gtask∥ 随分桶 RV 单调增大。高方差 prompt 给出强的任务判别性梯度。
- 正则梯度是平的:∥greg∥\|g_{\text{reg}}\|∥greg∥(KL + 熵)在所有桶里近似恒定,对每条推理施加一致的收缩。
- 低 RV prompt 的更新被正则主导:在最低方差桶里,任务梯度几乎消失,正则梯度仍在,更新几乎完全由 input-agnostic 噪声驱动。
3.3 形式化:Cauchy-Schwarz 上界
对输入 xxx 的 GGG 条采样轨迹,advantage 估计 Ag=Rg−Rˉ(x)A_g = R_g - \bar R(x)Ag=Rg−Rˉ(x),任务梯度为
gtask(x)=1G∑gAg ∇θlogπθ(τg∣x).g_{\text{task}}(x) = \frac{1}{G}\sum_g A_g \,\nabla_\theta \log \pi_\theta(\tau_g \mid x).gtask(x)=G1g∑Ag∇θlogπθ(τg∣x).
由 Cauchy-Schwarz(附录 H,Theorem H.2,取条件均值 baseline b(x)=E[R∣X=x]b(x) = \mathbb{E}[R \mid X = x]b(x)=E[R∣X=x]):
∥gtask(x)∥≤Var^(R∣X=x)⋅E[∥s(z;x)∥2∣X=x],\|g_{\text{task}}(x)\| \le \sqrt{\widehat{\mathrm{Var}}(R \mid X = x)} \cdot \sqrt{\mathbb{E}\big[\|s(z;x)\|^2 \mid X = x\big]},∥gtask(x)∥≤Var (R∣X=x)⋅E[∥s(z;x)∥2∣X=x],
其中 s(z;x)=∇θlogπθ(z∣x)s(z;x) = \nabla_\theta \log \pi_\theta(z \mid x)s(z;x)=∇θlogπθ(z∣x) 是 score function。
结论:低 reward 方差削弱 gtaskg_{\text{task}}gtask,而 gregg_{\text{reg}}greg 不变,从而驱动 I(X;Z)→0I(X;Z) \to 0I(X;Z)→0。 关键在于 H(Z∣X)H(Z\mid X)H(Z∣X) 不必下降——熵正则可以维持输入内多样性,而输入依赖度坍缩。这恰好对应 §1.4 中"高熵、低互信息"的 Template Collapse 象限。
3.4 三噪声分解
论文把总梯度分解为 gtotal=gsignal+gtask-noise+gregg_{\text{total}} = g_{\text{signal}} + g_{\text{task-noise}} + g_{\text{reg}}gtotal=gsignal+gtask-noise+greg(Table 2):
| 分量 | 来源 | 层面 | 可控 | 缓解手段 |
|---|---|---|---|---|
| gsignalg_{\text{signal}}gsignal | 同 prompt 轨迹间有意义的 reward 差异 | prompt | 否 | SNR-Aware Filtering |
| gtask-noiseg_{\text{task-noise}}gtask-noise | 采样与环境随机性 | prompt | 否 | 过滤高噪声 prompt |
| gregg_{\text{reg}}greg | 每链一致收缩,与输入无关(KL、熵) | chain | 是 | 调 λKL\lambda_{\text{KL}}λKL、λent\lambda_{\text{ent}}λent |
信号与任务噪声都随 prompt 变化,但只有前者携带任务判别信息;正则噪声在 chain 层面一致作用,是对跨输入差异的直接压制力。实践中 gtask=gsignal+gtask-noiseg_{\text{task}} = g_{\text{signal}} + g_{\text{task-noise}}gtask=gsignal+gtask-noise,SNR 定义为
SNR(x)=∥gsignal(x)∥∥gtask-noise(x)∥+∥greg∥.\mathrm{SNR}(x) = \frac{\|g_{\text{signal}}(x)\|}{\|g_{\text{task-noise}}(x)\| + \|g_{\text{reg}}\|}.SNR(x)=∥gtask-noise(x)∥+∥greg∥∥gsignal(x)∥.
当 Var^(R∣X)≈0\widehat{\mathrm{Var}}(R \mid X) \approx 0Var (R∣X)≈0 时,advantage 坍缩、gtask≈0g_{\text{task}} \approx 0gtask≈0,但 ∥gtotal∥≈∥greg∥\|g_{\text{total}}\| \approx \|g_{\text{reg}}\|∥gtotal∥≈∥greg∥(因 gregg_{\text{reg}}greg 与 RV 无关),于是低 RV prompt 的更新完全由 input-agnostic 正则噪声驱动,系统性地拉低 I(X;Z)I(X;Z)I(X;Z)。
4. 方法:SNR-Aware Filtering
4.1 用 reward 方差作为 SNR 代理
在每次迭代,对每个 prompt 采样 GGG 条轨迹,计算 episode return 的样本方差:
Var^(R∣X)=1G−1∑g=1G(Rg(X)−Rˉ(X))2,Rˉ(X)=1G∑g=1GRg(X).\widehat{\mathrm{Var}}(R \mid X) = \frac{1}{G-1}\sum_{g=1}^{G}\big(R_g(X) - \bar R(X)\big)^2, \qquad \bar R(X) = \frac{1}{G}\sum_{g=1}^{G} R_g(X).Var (R∣X)=G−11g=1∑G(Rg(X)−Rˉ(X))2,Rˉ(X)=G1g=1∑GRg(X).
较高的 Var^(R∣X)\widehat{\mathrm{Var}}(R \mid X)Var (R∣X) 表示轨迹可被 reward 有意义地区分,从而强化 advantage 估计、提升梯度对齐任务相关方向的可能性。
4.2 Top-p(nucleus-style)过滤
以保留率 ρ∈(0,1]\rho \in (0, 1]ρ∈(0,1] 按降序方差排序,选取累积方差质量达到阈值的最小前缀。设排序为 Var^(R∣X=xσ(1))≥⋯≥Var^(R∣X=xσ(P))\widehat{\mathrm{Var}}(R\mid X = x_{\sigma(1)}) \ge \cdots \ge \widehat{\mathrm{Var}}(R\mid X = x_{\sigma(P)})Var (R∣X=xσ(1))≥⋯≥Var (R∣X=xσ(P)),定义
τ=ρ∑i=1PVar^(R∣X=xi),k∗=min{k:∑j=1kVar^(R∣X=xσ(j))≥τ},\tau = \rho \sum_{i=1}^{P}\widehat{\mathrm{Var}}(R\mid X = x_i), \qquad k^* = \min\Big\{k : \sum_{j=1}^{k}\widehat{\mathrm{Var}}(R\mid X = x_{\sigma(j)}) \ge \tau\Big\},τ=ρi=1∑PVar (R∣X=xi),k∗=min{k:j=1∑kVar (R∣X=xσ(j))≥τ},
保留集 S={σ(1),…,σ(k∗)}S = \{\sigma(1), \dots, \sigma(k^*)\}S={σ(1),…,σ(k∗)},过滤后目标 Lρ(θ)=1k∗∑i∈S∑j∈BiLθ(ξj)\mathcal{L}_\rho(\theta) = \frac{1}{k^*}\sum_{i \in S}\sum_{j \in \mathcal{B}_i} L_\theta(\xi_j)Lρ(θ)=k∗1∑i∈S∑j∈BiLθ(ξj)。
它与 token 层的 nucleus sampling 同构,只是排序依据从 token 概率换成了 per-prompt reward 方差。
4.3 为什么 Top-p 优于 Top-k
二者都优先高方差 prompt,但 Top-p 是自适应的:当 batch 内大多数 prompt 方差近零、累积阈值无法达到时,Top-p 会拒绝整个 batch,构成对退化更新的天然保护;而 Top-k 固定保留 k=⌊ρP⌋k = \lfloor \rho P \rfloork=⌊ρP⌋ 个,不论信号质量,可能纳入弱信号 prompt 稀释训练信号。论文还给出了 min-p(阈值式)和 reverse top-p(诊断式,故意选低方差,用于验证 SNR 假设)等变体(附录 G)。
5. 实验
5.1 测试床
采用 RAGEN 测试床,覆盖 7 个互补的环境(Table 3):
| 任务 | 随机性 | 多轮 | 状态 | reward |
|---|---|---|---|---|
| Sokoban | 否 | 是 | grid | dense |
| FrozenLake | 是 | 是 | grid | binary |
| MetaMathQA | 否 | 是 | text | dense |
| Countdown | 否 | 否 | text | binary |
| SearchQA | 否 | 是 | text | dense |
| WebShop | 否 | 是 | text | dense |
| DeepCoder | 否 | 否 | text | dense |
主实验用 Qwen2.5-3B + veRL/HybridFlow,对比 PPO、DAPO、GRPO、Dr.GRPO,最多 400 个 rollout–update 迭代。每次迭代采集 K=P×G=128K = P \times G = 128K=P×G=128 条轨迹(P=8P = 8P=8,G=16G = 16G=16)。施加过滤时按 ρ\rhoρ 缩减有效 minibatch 并按 ρ\rhoρ 缩放 per-step loss,以保持步长可比。
5.2 Template collapse 是一个稳定复现的失败模式
跟踪任务成功率、MI 代理(Retrieval-Acc)与条件熵 H(Z∣X)H(Z\mid X)H(Z∣X)(Figure 5):
- 不过滤时,MI 在任务表现下降之前就显著走低,而条件熵全程偏高甚至上升。 这种背离正是 template collapse 的标志,也说明 MI 是一个早期预警信号(early warning),能捕捉熵完全错过的退化。
- 行为层面,在 8 个环境中推理长度均单调下降(Figure 7):随着 agent 收敛到可复用模板,输出变得更短、更公式化,这是 template collapse 的行为签名。
5.3 SNR-Aware Filtering 一致提升表现
Top-p 在四个代表性环境上一致优于 Top-k 与 no-filter(Figure 6)。跨算法、尺度、模态的结果(Table 4,每格为 baseline peak + filter delta)显示过滤在多数设置下提升平均分。值得注意的是增益并不普适,存在负 delta(如 GRPO 的 FrozenLake −3.0、Dr.GRPO 的 Sokoban −0.4),论文对此另有 §5.5 的诊断。
关于算力(Table 5,预算固定 128):RV 计算本身占迭代时间 <0.1%;过滤(ρ=0.9\rho = 0.9ρ=0.9)后进入梯度计算的 group 减少,per-step 时间下降 26%–41%;group size G≥4G \ge 4G≥4 配合过滤即可匹配或超过 128×1128 \times 1128×1 baseline——增益不以额外算力为代价。论文还把 DAPO 解释为本框架的一个特例(其固定的 filtering/acceptance 等价于 P→1.0P \to 1.0P→1.0 的 top-P),而 SNR-Aware Filtering 通过 ρ\rhoρ 提供了显式可调的 SNR 旋钮。
5.4 因果验证:SNR 机理真的解释了 Agent RL 吗
SNR 框架做了一个具体的因果断言——template collapse 是低 reward 方差的梯度层后果,而非激进正则或模型容量的副作用。论文用四个问题压力测试:
(1)直接控制 RV 是否因果驱动表现与 MI? 四分位消融(Table 6,Sokoban,按 RV 分四档各训一个 run,每步只保留 25%):
| Quartile | RV Range | Task Perf (%) | MI Proxy | Entropy |
|---|---|---|---|---|
| Q1(最高 RV) | [4.4–5.6] | 21.1 | 0.95 | 2.02 |
| Q2 | [1.5–4.2] | 19.5 | 0.93 | 1.53 |
| Q3 | [0.0–0.2] | 10.7 | 0.81 | 1.41 |
| Q4(最低 RV) | [0.0–0.1] | 11.0 | 0.73 | 1.87 |
任务表现与 MI 从 Q1 到 Q4 单调退化(注意熵并不单调,Q4 的熵甚至高于 Q3)。结合 Theorem(∥gtask∥≤RV\|g_{\text{task}}\| \le \sqrt{\mathrm{RV}}∥gtask∥≤RV),补全了因果链:reward 方差 → 梯度质量 → 输入依赖推理。
(2)注入环境噪声是否可预测地削弱 MI? 在 FrozenLake 中变化随机性 0%–100%(Figure 9):随机性上升,task return 下降、条件熵上升、I^(X;Z)\hat I(X;Z)I^(X;Z) 单调下降。更重要的是,过滤的优势在 80%–100% 极端噪声下消失——此时连高努力 prompt 也只能得到噪声 reward,RV 丧失判别力。机理能预测出自身的边界条件,这比"普遍有效"更可信。
(3)增益来自信号质量还是 prompt 分布偏置? 用轨迹级 baseline 拆解(Table 7,保留每个 prompt 的 top-8 与 bottom-8 轨迹,保持 prompt 分布不变):
| Method | Prompts Used | Traj/Update | Task Perf (%) | MI Proxy |
|---|---|---|---|---|
| No filter | 8/8 | 128 | 12.9 | 0.83 |
| Prompt-level RV (ρ=0.9\rho=0.9ρ=0.9) | 3.2/8 | 50.6 | 23.6 | 1.80 |
| Trajectory-level | 8/8 | 64 | 16.8 | 0.20 |
轨迹级过滤优于不过滤,但 prompt 级 SNR-Aware Filtering 以更大优势胜出。在天然低 RV 的 prompt 内部强行制造方差会放大噪声;挑选天然产生判别信号的 prompt 更有效。(注意轨迹级的 MI 反而最低,仅 0.20。)
(4)过滤条件何时成立? 论文给出一个训练前即可计算的廉价判据 Std(RV)/Mean(RV)\mathrm{Std(RV)}/\mathrm{Mean(RV)}Std(RV)/Mean(RV)(Table 8):比值高 → RV 分布双峰、过滤能干净分离信号与噪声;比值近零 → RV 均匀、过滤等于随机丢数据。例如 FrozenLake GRPO 的比值仅 0.33,对应 Δ=−5.0%\Delta = -5.0\%Δ=−5.0%;Sokoban(14B/3B)比值 1.16–1.29,对应正增益。
5.5 几个补充诊断
- Format validity 不能替代内容敏感诊断(Figure 12):格式合法性与坍缩基本解耦——run 可以维持近乎完美的格式合法性、却表现出低 MI。结构正确性与语义输入依赖是两个独立维度。
- RV 与熵、长度基本正交:reward 方差与条件熵的 Spearman 仅 −0.14、与响应长度仅 0.12,而与 task reward 高达 0.63。因此 RV 瞄准的是一个不同于表面统计量的更新质量轴,是 KL/熵正则的互补控制旋钮,而非替代。
- MI vs 熵作为监控器(§5.1,Figure 13):扫描熵正则强度、KL 约束强度、SNR-Aware Filtering 保留率三族干预,熵/KL 类稳定器主要改变 H(Z∣X)H(Z\mid X)H(Z∣X),很少把模型推入高 MI 区;只有 SNR-Aware Filtering 在 MI 与任务成功上同时单调改善。
6. 理论补充(附录要点)
对想深入的读者,附录给出了一组支撑性结论,简列如下:
- Theorem H.3(SNR 上界):GGG 样本 Monte Carlo 梯度估计的 SNR 满足 SNR(x)≤G⋅RV(x)σ(x)\mathrm{SNR}(x) \le \sqrt{G}\cdot \frac{\sqrt{\mathrm{RV}(x)}}{\sigma(x)}SNR(x)≤G⋅σ(x)RV(x)。当 reward 方差相对 reward 噪声偏低时,估计被噪声主导。
- Theorem J.1(过滤降低估计 MSE):过滤后估计 gˉ^S\hat{\bar g}_Sgˉ^S 对其均值无偏,MSE =1n2∑i∈Sσi2= \frac{1}{n^2}\sum_{i \in S}\sigma_i^2=n21∑i∈Sσi2。丢弃高噪声(低 RV)组直接降低估计误差。(注意:相对于未过滤目标 gˉ\bar ggˉ 它一般是有偏的。)
- Lemma I.1(模板混合收缩 MI):若策略条件分布被一个 prompt 无关分量 q(z)q(z)q(z) 以权重 α\alphaα 污染,则 Iα(X;Z)≤(1−α)I(X;Z)I_\alpha(X;Z) \le (1-\alpha) I(X;Z)Iα(X;Z)≤(1−α)I(X;Z)。即便部分漂向共享模板也会侵蚀输入依赖。
- Theorem L.1(KL 近 ⇒ MI 近):若当前策略与参考策略一致地 KL 接近,则 I(X;Z)I(X;Z)I(X;Z) 也保持接近。强 KL 约束能保持但不增加输入依赖。
- Theorem M.2(输入依赖变化的分解):Iθ(X;Z)−I0(X;Z)=Δmarg−ΔinI_\theta(X;Z) - I_0(X;Z) = \Delta_{\text{marg}} - \Delta_{\text{in}}Iθ(X;Z)−I0(X;Z)=Δmarg−Δin。若某干预(如熵 bonus)抬高 H(Z∣X)H(Z\mid X)H(Z∣X) 多于抬高边际熵 H(Z)H(Z)H(Z),则输入依赖必然下降。
- Proposition N.1(GRPO 归一化在低 RV 放大噪声):GRPO 把 advantage 除以 RV(x)\sqrt{\mathrm{RV}(x)}RV(x),导致其梯度估计的方差下界按 RV(x)−1\mathrm{RV}(x)^{-1}RV(x)−1 标度——RV 越小,归一化估计越嘈杂。这从理论上解释了为什么 GRPO 对过滤更敏感、在某些低 RV 设置下表现不稳。
7. 讨论与局限
7.1 论文自述的局限
- SNR 分解假设任务信号与正则噪声能干净分离,实践中它们可能通过梯度累积耦合;
- 全部实验为单 agent,多 agent 下 template collapse 如何传播仍开放;
- 一个足够强的模型可能通过人为抬高 reward 方差来 game 这个筛选准则,长训练周期需监控;
- 方法依赖 reward 方差作为可靠信号代理,在稀疏或噪声 reward 环境中退化;
- 激进过滤可能收窄探索覆盖,保留质量 ρ\rhoρ 需逐任务调。
7.2 个人评估(实话实说)
贡献的含金量排序,我认为是:概念 > 诊断指标 > 算法。
- 概念层最有价值:把推理质量拆成 H(Z∣X)H(Z\mid X)H(Z∣X) 与 I(X;Z)I(X;Z)I(X;Z) 两轴,并为 template collapse 下一个可测、可干预的精确定义,给了一个此前被模糊感受却无人讲清的现象一个操作化的抓手。
- 诊断指标次之:基于检索的 MI 代理胜在便宜、复用 rollout、且方向上明显比熵可靠。但需要冷静看待——+0.39+0.39+0.39 只是中等相关,“MI 比熵可靠两倍"听感很好,真正震撼的其实是另一半:熵的相关性为负。这篇工作的杀伤力在于"证伪熵”,而非"完美替代"。
- 算法层的新意应打折扣:按 reward 方差筛掉全对/全错的 prompt,DAPO 等方法早有类似机制(dynamic sampling),作者自己也把 DAPO 解释成本框架的特例。真正的增量是把它做成连续可调的 ρ\rhoρ 旋钮,并用 SNR 给出统一的理论叙述。
另外,4.3、5.3 反复出现的 Top-p > Top-k > no-filter 结论是自洽的;§5.4 的四个因果实验(尤其是能预测自身失效边界的噪声注入、以及训练前可算的 Std/Mean 判据)让 SNR 解释比一般的"涨点论文"更难被轻易否定,这是它的扎实之处。理论上 Theorem H.2 给的是上界而非紧界,结论方向正确但偏定性,不宜过度解读。
8. 总结
如果只带走两条结论,建议是:
- 在多轮 Agent RL 中,熵作为推理质量的监控指标可能是误导性的,其与最终表现的相关性甚至为负;应当用输入-推理互信息(I(X;Z)I(X;Z)I(X;Z))作为主诊断,与任务表现并列监控。
- 导致推理坍缩的机理性原因,是组内 reward 方差不足——它削弱任务梯度,让 input-agnostic 的正则项主导更新方向,从而在不降低 H(Z∣X)H(Z\mid X)H(Z∣X) 的情况下抹除 I(X;Z)I(X;Z)I(X;Z)。对应的干预是按 reward 方差做 prompt 级过滤(SNR-Aware Filtering)。
这两条共同构成了一个面向多轮 agent RL 系统性失败模式的诊断框架:MI 用于"看见"坍缩,SNR 用于"解释"坍缩,reward 方差过滤用于"干预"坍缩。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)