【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
核心结论:这篇NeurIPS 2025论文(NVIDIA 团队): ProRL 通过延长稳定的 RL 训练,让模型在新颖、困难、基座不会的任务上,真正学到新的推理策略,实现推理边界的扩展,而不是简单地优化已有能力。
一、研究背景与核心问题
1. 行业争议
-
主流观点:RL 仅提升基础模型中已有高奖励输出的采样概率,无法解锁新推理能力。
-
本文质疑:过往研究训练步数太少(<500 步)、任务单一,未给模型足够探索时间。
2. 核心问题
RL 能否让 LLM 发现base模型穷尽采样也无法触及的全新推理策略?延长训练能否持续提升推理性能?
二、ProRL 方法:解决长时 RL 训练的关键痛点
1. 核心目标
实现超 2000 步稳定 RL 训练,避免 “熵崩溃”(输出分布过早收敛、探索枯竭)。
2. 关键技术(基于 GRPO 优化)
-
KL 散度控制:约束当前策略与参考策略的偏离,防止训练发散。
-
参考策略周期性重置:定期用最新在线策略更新参考模型,避免 KL 项主导损失、阻碍进步。
-
动态任务采样:过滤过易 / 过难样本,聚焦中等难度任务,维持有效学习信号。(DAPO算法)
-
解耦剪裁(DAPO):分别设置上下界,提升低概率 token 权重,鼓励更广泛探索。
-
可验证奖励:所有奖励程序自动判定(如代码执行、数学答案校验),杜绝奖励作弊。
3. 训练配置
-
模型:DeepSeek-R1-Distill-Qwen-1.5B(base模型)。
-
数据集:13.6 万样本,覆盖数学、代码、STEM、逻辑谜题、指令跟随五大领域。
-
训练规模:2000+步。
三、核心实验结果

Figure 1:ProRL 延长训练的三大核心好处: |
||
|
左图 Left:Pass@1 和 Pass@16 随 ProRL 训练稳步上升 横轴:延长 RL 训练步数 纵轴:解题正确率(Pass@1、Pass@16) 现象:随着训练越久,Pass@1 和 Pass@16 持续上涨、没有停滞、没有坍塌。 说明:延长 RL 训练是有用的,不是越练越差,而是越练越强。训练越久,正确率越高; |
中图 Middle:ProRL 让解法更新颖,创造力指数更高 纵轴:Creativity Index 创造力指数越高 = 解法越新颖、越没见过、和基座 / 预训练越不一样。 现象:随着 ProRL 训练,创造力指数一路上升。 说明:ProRL 不只是 “把题做对”,还在探索新解法、学到基座没有的推理策略。训练越久,解法越新颖、创造力越强; 注明:创造力指数:ProRL 输出与预训练语料的n-gram 重叠度更低,证明是原创推理而非复述。 |
右图 Right:ProRL 在各类任务上大幅超越基座模型 对比: base 模型 vs ProRL 模型 现象:在所有任务上,ProRL 的性能都远高于基座。 说明:ProRL 不是只在某一类任务有效,而是通用、稳定、全面地提升推理能力。在各类任务上,ProRL 都能大幅超越基座模型。 |

Figure 2:训练过程中的动态变化 |
||
|
结合DAPO 的优化方法,并加入 KL 散度约束,成功避免了熵坍塌,让模型在长时间训练中保持输出多样性 同时发现,虽然回答长度和性能有一定正相关,但这并不是决定性因素,因为很多阶段性能提升时,回答并没有变长。这说明 ProRL 的提升来自更优的推理,而不是更啰嗦的输出。 最关键的是,无论是 Pass@1 还是 Pass@16,验证性能全程稳步提升,训练越久效果越好。 |

|
Figure 3 阐述了:ProRL 到底在什么任务上最有用。 结论: 基座模型越不会做的任务,ProRL 越能真正扩展推理边界; 基座本来就会、和预训练数据重叠高的任务,RL 提升很小。 所以 ProRL 的真正价值,不是优化已有能力,而是解锁基座完全不具备的新推理能力。 |
|
|
左边图(Left)解释
|
右边图(Right)解释
|
|
|

Table 1 展示的是 数学领域(Math domain)各个基准测试的 pass@1 性能对比。
-
表中最好的结果用粗体标出来。
-
同时我们把 DeepSeek‑R1‑Distill‑Qwen‑7B 的结果用灰色展示,只作为参考,后面所有表格也是一样。
Table 2 是 代码领域(Code)各个基准的 pass@1 性能对比。
Table 3 展示的是 更广泛的综合推理任务性能:
-
包括 STEM 推理(GPQA Diamond)
-
指令遵循(IFEval)
-
逻辑谜题(Reasoning Gym)
同时,这张表还展示了分布外(OOD)泛化任务的结果:
-
acre
-
boxnet
-
game_of_life_halting(简写 game)
用来证明我们的方法不只是在常见任务有效,在全新、没见过的任务上也能泛化。

|
RL 训练对推理边界的影响分成三类场景 |
||
|
Diminished Reasoning Boundary 推理边界缩小 在一些基准(尤其是数学里简单、套路化的题),RL 后的模型和基座比: pass@1 上升(单次更准) pass@128 下降(推理上限 / 广度变低) 原因:基座本来就很强,RL 只是把概率压到少数正确路径上,牺牲了多样性、探索能力和泛化性。 结论:简单任务 → RL 反而让推理边界变窄。 |
Gains Plateau with RL 收益早期饱和,后面不再涨 有些任务: pass@1 和 pass@128 都涨 但涨点全在训练早期 对比中间 checkpoint 和最终模型:后面继续训练几乎没收益。 结论:模型很快学到上限,再怎么训也不涨了。 |
Sustained Gains from ProRL ProRL 带来持续提升 在更复杂、需要创造力的任务(比如代码): 训练越久,推理能力一直涨 pass@1 和推理边界(pass@k)持续扩大 原因:复杂任务需要大量、长时间的探索,ProRL 能一直挖新路径。 结论:只有复杂、高探索需求的任务,ProRL 才能真正持续扩展推理边界。 |


|
Figure 5 展示的是 ProRL 在一个分布外(OOD)任务 boxnet 上的效果。 boxnet 是一个模型完全没见过、预训练里几乎没有、分布外的新任务。 这张图直观地证明:ProRL 真正扩展了模型的推理边界,让模型在从未见过的全新任务上也能学会、做对,而不是只在见过的任务上刷分。 推理边界真正扩展(最关键结论) 在基础模型完全失败(pass@k=0%)的任务上,ProRL 模型实现100% 通过率,证明发现了全新推理路径。 性能随训练步数持续增长(无饱和),说明 RL 在持续探索新解空间。 |
Figure 6 展示的是 ProRL 在 graph_color 图着色任务上的泛化能力。graph_color 是一个难度可以不断提升的任务。 这张图想说明:当任务难度变得更高、更复杂时,ProRL 依然能够泛化、依然能做得很好。 |


|
Figure 7 展示了 ProRL 训练中,代码(codeforces)和推理(family_relationships)两个任务的 pass@1 准确率分布变化,直观体现模型解题能力的演化过程。 |
|
Figure 7 展示的是 延长 RL 训练后,两个代表性任务上 pass@1 准确率的分布变化。 核心看:随着 ProRL 训练推进,模型在任务上的解题准确率分布,是怎么演变的。 具体包含两个任务: (a)代码领域的 codeforces 任务 (b)推理领域的 family_relationships(家庭关系推理) 任务 |
四、关键结论与启示
1. 理论突破
-
RL 能真正扩展 LLM 推理边界:不是 “优化采样”,而是探索并填充基础模型无法触及的解空间。
-
提升幅度与基础模型能力、训练时长强相关:基础越弱、训练越长,收益越大。
2. 工程启示
-
长时 RL 训练可行且高效:ProRL 的 KL 控制、参考重置等技术是规模化 RL 推理的基础。
-
小模型 + 长时 RL 可对标大模型:1.5B 参数通过 ProRL 实现 7B 级推理性能。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)