【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?
核心结论:本文直面“RL仅优化LLM基座已有能力”的主流争议,提出可复现的“RL Grokking Recipe”训练方案,
通过严谨实验证明:特定条件下,RL能让LLM突破基座能力上限(pass@K=0任务),解锁全新算法能力并实现有限迁移,为RL驱动LLM推理能力跃迁提供关键证据与实践路径
一、研究背景与核心争议
当前学界对 RL 能否提升 LLM 推理能力 存在两大对立观点:
-
主流怀疑派(Sharpening 模式)
-
-
RL 只是打磨、激活基座模型已有的能力
-
只提升采样效率,无法突破基座表征上限
-
如果基座在某任务上 pass@K=0,RL 会因奖励稀疏、梯度消失而完全学不到新策略
-
-
少数乐观派(Discovery 模式)
-
-
RL 可以解锁基座完全不具备的新推理 / 算法策略
-
实现能力跃迁,但缺少严谨实验 + 可复现方法
-
研究痛点
-
传统数据集存在数据污染,分不清是 “记忆” 还是 “真学会”: 无法严谨证明 RL 让模型学到了新能力。
-
在 pass@K=0 任务 上,标准 RL 梯度为 0,无法学习:
二、核心研究问题
本文要回答三个根本性问题:
-
可学习性:RL 能否让 LLM 在基座 pass@K=0 的任务上,学到全新算法?
-
迁移性:RL 学到的新算法,能否泛化到 OOD 任务?
-
关键条件:如何设计 RL 方案,破解 pass@K=0 零梯度诅咒,触发能力 “顿悟”?
三、核心研究方法(创新点)
1. 构建 DELTA 基准(核心工具创新)
为了彻底避开数据污染、严格验证 “从零学会”,作者构建了 DELTA 基准:
-
完全合成、全新 DSL 语言,互联网不存在
-
训练 / 测试严格分布外(OOD)
-
部分任务基座 pass@128=0
-
支持三类迁移:
-
探索性: 同一种任务 → 只是变难、变复杂。
-
组合性: 把学会的多个子技能,重新组合成新任务。
-
转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。
-



对应图表:
-
Figure 1:
-
左侧展示 DELTA 包含的多类任务(人造编程 / 模拟任务、SQL 等);
-
右侧展示基座模型在这些任务上 pass@k=0 的结果,证明是 “真正从零学”。
-
Learnability(可学习性):看 RL 如何让模型 grokking(顿悟) 出全新策略;
-
Generalization(泛化性):看模型学到的算法能不能迁移、泛化、重组
-
-
|
上半部分:Learnability(可学习性)—— RL Grokking 顿悟曲线 横轴:训练步数(RL 迭代轮次) 纵轴:任务通过率(Full-pass Rate) 曲线形态: 长平台期(Exploration Phase):前几百 / 几千步,通过率≈0(pass@K=0),模型在探索、试错,未找到有效算法。 Grokking 顿悟点(Phase Transition):某一步突然 “开窍”,通过率从接近 0跳升至接近 100%。 收敛期(Convergence Phase):稳定在接近满分,模型掌握并固化了全新算法。 核心含义: 证明RL 能让 LLM 学会基础模型完全不会的新算法(不是微调 / 记忆)。 关键是两阶段奖励:先用稠密奖励(per-test)走出零奖励区,再用二元全对奖励(full-pass)巩固正确策略。 |
下半部分:Generalization(泛化性)—— 四大迁移维度 展示 RL 学到的算法如何迁移到 OOD(分布外)任务,沿四大轴测试: Exploratory Gen(探索性泛化):同问题家族、更难的变体(如 Manufactoria 更复杂规则)。 Compositional Gen(组合性泛化):将学到的子算法 / 子技能重新组合,解决新任务。 Transformative Gen(转化性泛化):跨问题类型、需要彻底改变推理范式(论文中表现最弱)。 Domain-level Gen(领域级泛化):跨问题家族(如从 Manufactoria 到 BouncingSim)。 核心含义: RL 学到的算法具备一定迁移能力,尤其在同家族与组合场景;但在转化性泛化上仍有瓶颈。 |
|
-
Figure 2:Manufactoria 难度阶梯图含义:将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard,展示任务难度分层,证明 DELTA 覆盖从易到难的完整梯度。
-
Figure 3:BouncingSim 各任务家族 & 难度热力图含义:展示 BouncingSim 不同任务家族(ROT OBJ、GRAVITY 等)与难度层级的基线性能,直观呈现任务复杂度分布与基座能力上限。
2. 提出 RL Grokking Recipe(核心方法创新)
目标:破解 pass@K=0 零梯度问题,触发 Grokking 相变。
采用 两阶段奖励调度:
-
Warm-up 阶段
-
-
密集奖励(按测试用例通过率给 0~1 连续奖励)
-
让模型从全零奖励中获得梯度,积累局部正确逻辑
-
-
收敛阶段
-
-
切换为 二元奖励(只有全部用例通过才给奖励)
-
过滤 “投机解、局部解”,巩固完整算法
-
辅助策略(稳定训练、加速grokking)
-
经验回放
-
课程学习




|
Figure 5 对比了三种不同策略,在解决 pass@K=0 这类基座模型完全不会的任务时的效果。 所有实验都在 Manufactoria‑HAS 任务上,基于 Qwen3‑4B 模型展开。
|
Figure 6 对比了2种能够 ** 加速 RL 顿悟(grokking)** 的训练策略。
这张图说明:经验回放和循环反馈能有效加速顿悟,是实现高效 RL 学习的关键辅助策略。 |
|
Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。 所有模型先统一在基础任务上训练,学习 START、APPEND、EXACT 等基础技能,再进入两条不同的中间课程:
结果说明:课程学习想要成功,关键不仅在于循序渐进,更在于中间任务与目标任务的相关性,才能实现有效技能迁移。 |
Figure 8 方法也存在局限性:并非所有任务都能通过Warm-up训练解锁。 在难度更高的 Manufactoria-PREPEND 任务上,即使使用稠密奖励,模型仍无法学会完整算法,full-pass 率始终为 0。 这表明 Warm-up并非通用方案,其效果受模型容量与任务难度限制。 |
四、核心实验结论
结论 1:RL 能解锁全新算法,触发 Grokking 相变
在多个 pass@K=0 任务上,模型出现典型 Grokking 曲线:
-
长期平台期:准确率 ≈ 0
-
某一训练步数:突然顿悟、暴涨到接近 100%
-
从 “完全不会” 直接跳到 “精通算法”
分析证明:
-
不是基座能力的采样优化
-
是真正学到了全新算法策略
-
RL 实现了 Discovery 模式


Figure 4:RL 训练前后 Manufactoria-HAS 的 Pass@k 对比含义:直观展示 RL 前后,模型从完全不会(≈0)到高通过率的跃迁,直接证明 RL 解锁全新能力。
Figure 9
-
(a):BouncingSim 上的 Grokking 曲线含义:训练集准确率在约 200 step 出现陡峭跳变,是典型顿悟相变曲线,证明 Grokking 真实发生。
-
(b)(c)(d):BOUNCINGSIM 泛化实验含义:(b) 探索性泛化:能迁移到更难变体 (c) 组合性泛化:技能零样本组合可用 (d) 转化性泛化:全新动力学几乎不迁移证明:RL 解锁的算法能力有限泛化。
结论 2:新算法能力具备有限泛化性
在 DELTA 上做三类迁移实验:(图9)
-
有效迁移
-
-
同任务家族更难场景:探索性泛化 ✅
-
子技能重新组合:组合性泛化 ✅
-
-
迁移局限
-
-
转化性泛化 ❌
-
跨任务家族:效果差 ❌
-
结论:RL 能学到强任务级算法,但还不是通用概念级能力。
结论 3:调和学界争议 —— RL 双模式
本文正式统一两种观点:
-
Sharpening(打磨模式)
-
-
标准 RL
-
只优化采样、无法突破 pass@K=0
-
-
Discovery(发现模式)
-
-
RL Grokking Recipe
-
突破基座上限,从零解锁新算法
-
关键差异:奖励设计 + 持续探索。
五、核心贡献与意义
-
理论贡献打破 “RL 只能打磨能力” 的认知,证明 RL 可解锁全新算法,Grokking 是关键标志。
-
方法贡献提出 RL Grokking Recipe,两阶段奖励破解 pass@K=0 零梯度难题。
-
工具贡献构建 DELTA 基准,无污染、可控、严格 OOD。
-
实践意义给工业界指明方向:
-
-
不要只堆数据、堆模型
-
重点做:奖励设计 + 探索策略 + 长期 RL 训练
-
六、一句话总结
RL 并非只能 “打磨” LLM 已有能力,通过两阶段奖励调度 + 持续探索,它能让模型实现顿悟,解锁基座完全不具备的全新算法;但这种突破的泛化能力仍有局限,未来需重点优化跨场景迁移,让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)