【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

King的王国

328人浏览 · 2026-05-14 12:00:00

King的王国 · 2026-05-14 12:00:00 发布

核心结论：本文直面“RL仅优化LLM基座已有能力”的主流争议，提出可复现的“RL Grokking Recipe”训练方案，

通过严谨实验证明：特定条件下，RL能让LLM突破基座能力上限（pass@K=0任务），解锁全新算法能力并实现有限迁移，为RL驱动LLM推理能力跃迁提供关键证据与实践路径

一、研究背景与核心争议

当前学界对 RL 能否提升 LLM 推理能力 存在两大对立观点：

主流怀疑派（Sharpening 模式）

- RL 只是打磨、激活基座模型已有的能力
- 只提升采样效率，无法突破基座表征上限
- 如果基座在某任务上 pass@K=0，RL 会因奖励稀疏、梯度消失而完全学不到新策略

少数乐观派（Discovery 模式）

- RL 可以解锁基座完全不具备的新推理 / 算法策略
- 实现能力跃迁，但缺少严谨实验 + 可复现方法

研究痛点

传统数据集存在数据污染，分不清是 “记忆” 还是 “真学会”：无法严谨证明 RL 让模型学到了新能力。
在 pass@K=0 任务 上，标准 RL 梯度为 0，无法学习：

二、核心研究问题

本文要回答三个根本性问题：

可学习性：RL 能否让 LLM 在基座 pass@K=0 的任务上，学到全新算法？
迁移性：RL 学到的新算法，能否泛化到 OOD 任务？
关键条件：如何设计 RL 方案，破解 pass@K=0 零梯度诅咒，触发能力 “顿悟”？

三、核心研究方法（创新点）

1. 构建 DELTA 基准（核心工具创新）

为了彻底避开数据污染、严格验证 “从零学会”，作者构建了 DELTA 基准：

完全合成、全新 DSL 语言，互联网不存在
训练 / 测试严格分布外（OOD）
部分任务基座 pass@128=0
支持三类迁移：
- 探索性: 同一种任务 → 只是变难、变复杂。
- 组合性: 把学会的多个子技能，重新组合成新任务。
- 转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。

对应图表：

Figure 1：
- 左侧展示 DELTA 包含的多类任务（人造编程 / 模拟任务、SQL 等）；
- 右侧展示基座模型在这些任务上 pass@k=0 的结果，证明是 “真正从零学”。
  - Learnability（可学习性）：看 RL 如何让模型 grokking（顿悟） 出全新策略；
  - Generalization（泛化性）：看模型学到的算法能不能迁移、泛化、重组

上半部分：Learnability（可学习性）—— RL Grokking 顿悟曲线

横轴：训练步数（RL 迭代轮次）

纵轴：任务通过率（Full-pass Rate）

曲线形态：

长平台期（Exploration Phase）：前几百 / 几千步，通过率≈0（pass@K=0），模型在探索、试错，未找到有效算法。

Grokking 顿悟点（Phase Transition）：某一步突然 “开窍”，通过率从接近 0跳升至接近 100%。

收敛期（Convergence Phase）：稳定在接近满分，模型掌握并固化了全新算法。

核心含义：

证明RL 能让 LLM 学会基础模型完全不会的新算法（不是微调 / 记忆）。

关键是两阶段奖励：先用稠密奖励（per-test）走出零奖励区，再用二元全对奖励（full-pass）巩固正确策略。

下半部分：Generalization（泛化性）—— 四大迁移维度

展示 RL 学到的算法如何迁移到 OOD（分布外）任务，沿四大轴测试：

Exploratory Gen（探索性泛化）：同问题家族、更难的变体（如 Manufactoria 更复杂规则）。

Compositional Gen（组合性泛化）：将学到的子算法 / 子技能重新组合，解决新任务。

Transformative Gen（转化性泛化）：跨问题类型、需要彻底改变推理范式（论文中表现最弱）。

Domain-level Gen（领域级泛化）：跨问题家族（如从 Manufactoria 到 BouncingSim）。

核心含义：

RL 学到的算法具备一定迁移能力，尤其在同家族与组合场景；但在转化性泛化上仍有瓶颈。

Figure 2：Manufactoria 难度阶梯图含义：将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard，展示任务难度分层，证明 DELTA 覆盖从易到难的完整梯度。
Figure 3：BouncingSim 各任务家族 & 难度热力图含义：展示 BouncingSim 不同任务家族（ROT OBJ、GRAVITY 等）与难度层级的基线性能，直观呈现任务复杂度分布与基座能力上限。

2. 提出 RL Grokking Recipe（核心方法创新）

目标：破解 pass@K=0 零梯度问题，触发 Grokking 相变。

采用 两阶段奖励调度：

Warm-up 阶段

- 密集奖励（按测试用例通过率给 0~1 连续奖励）
- 让模型从全零奖励中获得梯度，积累局部正确逻辑

收敛阶段

- 切换为 二元奖励（只有全部用例通过才给奖励）
- 过滤 “投机解、局部解”，巩固完整算法

辅助策略（稳定训练、加速grokking）

经验回放
课程学习

Figure 5 对比了三种不同策略，在解决 pass@K=0 这类基座模型完全不会的任务时的效果。

所有实验都在 Manufactoria‑HAS 任务上，基于 Qwen3‑4B 模型展开。

子图 (a)：直接用 GRPO 对全对奖励做优化，完全失败。因为一开始模型什么都做不对，奖励始终为 0，没有梯度，根本学不起来。
子图 (b)：改用按测试用例通过率的稠密奖励，虽然奖励更平滑、能起步，但很快就饱和停滞，只能学到局部正确，学不会完整算法。
子图 (c)：我们提出的两阶段训练—— 先用稠密奖励做 warm‑up 启动学习，再切换成全对奖励做收敛。只有这种方式，能让模型从完全不会，最终实现顿悟、成功解出任务。

Figure 6 对比了2种能够 ** 加速 RL 顿悟（grokking）** 的训练策略。

No Trick 是使用图5所示的2阶段标准训练，作为基线，收敛很慢；
Experience Replay 经验回放通过记录并复用成功轨迹，显著加快训练收敛，grok时刻提前到来；
- 较长的探索阶段主要来自于积极奖励信号的稀疏性。缓解这种情况的一种自然方法是保留成功的推理轨迹，并将其重新插入到未来的部署中——被称为经验回放。
Experience Replay + Feedback-in-the-loop 循环反馈
- 可加速grok时刻到来，但是训练稳定性差。

这张图说明：经验回放和循环反馈能有效加速顿悟，是实现高效 RL 学习的关键辅助策略。

Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。

所有模型先统一在基础任务上训练，学习 START、APPEND、EXACT 等基础技能，再进入两条不同的中间课程：

路径一：第二阶段学习 REGEX （正则类任务）相关任务，与目标任务逻辑相近，能够有效迁移，最终在 HAS 任务上达到很高的通过率；
路径二：第二阶段学习 COMPR （理解类任务）任务，与目标任务无关，无法迁移，性能长期停留在低位。

结果说明：课程学习想要成功，关键不仅在于循序渐进，更在于中间任务与目标任务的相关性，才能实现有效技能迁移。

Figure 8

方法也存在局限性：并非所有任务都能通过Warm-up训练解锁。

在难度更高的 Manufactoria-PREPEND 任务上，即使使用稠密奖励，模型仍无法学会完整算法，full-pass 率始终为 0。

这表明 Warm-up并非通用方案，其效果受模型容量与任务难度限制。

四、核心实验结论

结论 1：RL 能解锁全新算法，触发 Grokking 相变

在多个 pass@K=0 任务上，模型出现典型 Grokking 曲线：

长期平台期：准确率 ≈ 0
某一训练步数：突然顿悟、暴涨到接近 100%
从 “完全不会” 直接跳到 “精通算法”

分析证明：

不是基座能力的采样优化
是真正学到了全新算法策略
RL 实现了 Discovery 模式

Figure 4：RL 训练前后 Manufactoria-HAS 的 Pass@k 对比含义：直观展示 RL 前后，模型从完全不会（≈0）到高通过率的跃迁，直接证明 RL 解锁全新能力。

Figure 9

(a)：BouncingSim 上的 Grokking 曲线含义：训练集准确率在约 200 step 出现陡峭跳变，是典型顿悟相变曲线，证明 Grokking 真实发生。
(b)(c)(d)：BOUNCINGSIM 泛化实验含义：(b) 探索性泛化：能迁移到更难变体 (c) 组合性泛化：技能零样本组合可用 (d) 转化性泛化：全新动力学几乎不迁移证明：RL 解锁的算法能力有限泛化。