核心结论:这篇NeurIPS 2025论文(NVIDIA 团队): ProRL 通过延长稳定的 RL 训练,让模型在新颖、困难、基座不会的任务上,真正学到新的推理策略,实现推理边界的扩展,而不是简单地优化已有能力。


一、研究背景与核心问题

1. 行业争议

  • 主流观点:RL 仅提升基础模型中已有高奖励输出的采样概率,无法解锁新推理能力

  • 本文质疑:过往研究训练步数太少(<500 步)、任务单一,未给模型足够探索时间。

2. 核心问题

RL 能否让 LLM 发现base模型穷尽采样也无法触及的全新推理策略?延长训练能否持续提升推理性能?


二、ProRL 方法:解决长时 RL 训练的关键痛点

1. 核心目标

实现超 2000 步稳定 RL 训练,避免 “熵崩溃”(输出分布过早收敛、探索枯竭)。

2. 关键技术(基于 GRPO 优化)

  • KL 散度控制:约束当前策略与参考策略的偏离,防止训练发散。

  • 参考策略周期性重置:定期用最新在线策略更新参考模型,避免 KL 项主导损失、阻碍进步。

  • 动态任务采样:过滤过易 / 过难样本,聚焦中等难度任务,维持有效学习信号。(DAPO算法)

  • 解耦剪裁(DAPO):分别设置上下界,提升低概率 token 权重,鼓励更广泛探索。

  • 可验证奖励:所有奖励程序自动判定(如代码执行、数学答案校验),杜绝奖励作弊。

3. 训练配置

  • 模型:DeepSeek-R1-Distill-Qwen-1.5B(base模型)。

  • 数据集:13.6 万样本,覆盖数学、代码、STEM、逻辑谜题、指令跟随五大领域。

  • 训练规模:2000+步


三、核心实验结果

Figure 1:ProRL 延长训练的三大核心好处:

左图 Left:Pass@1 和 Pass@16 随 ProRL 训练稳步上升

横轴:延长 RL 训练步数

纵轴:解题正确率(Pass@1、Pass@16)

现象:随着训练越久,Pass@1 和 Pass@16 持续上涨、没有停滞、没有坍塌

说明:延长 RL 训练是有用的,不是越练越差,而是越练越强。训练越久,正确率越高

中图 Middle:ProRL 让解法更新颖,创造力指数更高

纵轴:Creativity Index 创造力指数越高 = 解法越新颖、越没见过、和基座 / 预训练越不一样

现象:随着 ProRL 训练,创造力指数一路上升

说明:ProRL 不只是 “把题做对”,还在探索新解法、学到基座没有的推理策略训练越久,解法越新颖、创造力越强



注明:创造力指数:ProRL 输出与预训练语料的n-gram 重叠度更低,证明是原创推理而非复述。

右图 Right:ProRL 在各类任务上大幅超越基座模型

对比: base 模型 vs ProRL 模型

现象:在所有任务上,ProRL 的性能都远高于基座

说明:ProRL 不是只在某一类任务有效,而是通用、稳定、全面地提升推理能力在各类任务上,ProRL 都能大幅超越基座模型

Figure 2:训练过程中的动态变化

结合DAPO 的优化方法,并加入 KL 散度约束,成功避免了熵坍塌,让模型在长时间训练中保持输出多样性

同时发现,虽然回答长度和性能有一定正相关,但这并不是决定性因素,因为很多阶段性能提升时,回答并没有变长。这说明 ProRL 的提升来自更优的推理,而不是更啰嗦的输出

最关键的是,无论是 Pass@1 还是 Pass@16,验证性能全程稳步提升,训练越久效果越好

Figure 3 阐述了:ProRL 到底在什么任务上最有用

结论:

基座模型越不会做的任务,ProRL 越能真正扩展推理边界;

基座本来就会、和预训练数据重叠高的任务,RL 提升很小。

所以 ProRL 的真正价值,不是优化已有能力,而是解锁基座完全不具备的新推理能力

左边图(Left)解释

  • 横轴 / 纵轴大意:横轴 = 基座模型原本的能力(越靠左 = 基座越差)纵轴 = ProRL 带来的绝对提升(越高 = RL 涨点越多)

  • 图里看到的规律:越靠左下方的点 → 基座完全不会、很吃力的任务→ ProRL 带来的提升越大、越明显

  • 总结基座越弱,ProRL 越强;基座本来就会的,ProRL 提升很小。ProRL 真正的价值,是把基座不会的任务 “从 0 做到会”。

右边图(Right)解释

  • Creativity index(创造力指数):论文里用来衡量 任务有多新颖、和预训练数据重叠度有多低

    • 高 creativity = 任务很新、预训练里几乎没有

    • 低 creativity = 任务很常规、预训练里见过很多

  • 图里圈出来的任务:圈里的任务 = RL 之后几乎不涨点

  • 规律:这些不涨点的任务,全都集中在 low creativity index 区域

    • 这么理解:这些任务在预训练里本来就大量出现,模型早就会了,RL 再怎么练也提升有限。

  • 总结RL 提升小的任务,都是因为预训练已经 “喂饱” 了;只有新颖、预训练里很少见、创造力高的任务,ProRL 才能真正突破边界。



Table 1 展示的是 数学领域(Math domain)各个基准测试的 pass@1 性能对比

  • 表中最好的结果用粗体标出来

  • 同时我们把 DeepSeek‑R1‑Distill‑Qwen‑7B 的结果用灰色展示,只作为参考,后面所有表格也是一样。



Table 2 是 代码领域(Code)各个基准的 pass@1 性能对比



Table 3 展示的是 更广泛的综合推理任务性能

  • 包括 STEM 推理(GPQA Diamond)

  • 指令遵循(IFEval)

  • 逻辑谜题(Reasoning Gym)

同时,这张表还展示了分布外(OOD)泛化任务的结果

  • acre

  • boxnet

  • game_of_life_halting(简写 game)

用来证明我们的方法不只是在常见任务有效,在全新、没见过的任务上也能泛化

RL 训练对推理边界的影响分成三类场景

Diminished Reasoning Boundary

推理边界缩小

在一些基准(尤其是数学里简单、套路化的题),RL 后的模型和基座比:

pass@1 上升(单次更准)

pass@128 下降(推理上限 / 广度变低)

原因:基座本来就很强,RL 只是把概率压到少数正确路径上,牺牲了多样性、探索能力和泛化性

结论:简单任务 → RL 反而让推理边界变窄。

Gains Plateau with RL

收益早期饱和,后面不再涨



有些任务:

pass@1 和 pass@128 都涨

涨点全在训练早期



对比中间 checkpoint 和最终模型:后面继续训练几乎没收益

结论:模型很快学到上限,再怎么训也不涨了。

Sustained Gains from ProRL

ProRL 带来持续提升



更复杂、需要创造力的任务(比如代码):

训练越久,推理能力一直涨

pass@1 和推理边界(pass@k)持续扩大



原因:复杂任务需要大量、长时间的探索,ProRL 能一直挖新路径。

结论:只有复杂、高探索需求的任务,ProRL 才能真正持续扩展推理边界。

Figure 5 展示的是 ProRL 在一个分布外(OOD)任务 boxnet 上的效果。

boxnet 是一个模型完全没见过、预训练里几乎没有、分布外的新任务。

这张图直观地证明:ProRL 真正扩展了模型的推理边界,让模型在从未见过的全新任务上也能学会、做对,而不是只在见过的任务上刷分。

推理边界真正扩展(最关键结论)

基础模型完全失败(pass@k=0%)的任务上,ProRL 模型实现100% 通过率,证明发现了全新推理路径。

性能随训练步数持续增长(无饱和),说明 RL 在持续探索新解空间

Figure 6 展示的是 ProRL 在 graph_color 图着色任务上的泛化能力。graph_color 是一个难度可以不断提升的任务。

这张图想说明:当任务难度变得更高、更复杂时,ProRL 依然能够泛化、依然能做得很好。

Figure 7 展示了 ProRL 训练中,代码(codeforces)和推理(family_relationships)两个任务的 pass@1 准确率分布变化,直观体现模型解题能力的演化过程。

Figure 7 展示的是 延长 RL 训练后,两个代表性任务上 pass@1 准确率的分布变化

核心看:随着 ProRL 训练推进,模型在任务上的解题准确率分布,是怎么演变的。

具体包含两个任务:

(a)代码领域的 codeforces 任务

(b)推理领域的 family_relationships(家庭关系推理) 任务


四、关键结论与启示

1. 理论突破

  • RL 能真正扩展 LLM 推理边界:不是 “优化采样”,而是探索并填充基础模型无法触及的解空间

  • 提升幅度与基础模型能力、训练时长强相关:基础越弱、训练越长,收益越大。

2. 工程启示

  • 长时 RL 训练可行且高效:ProRL 的 KL 控制、参考重置等技术是规模化 RL 推理的基础

  • 小模型 + 长时 RL 可对标大模型:1.5B 参数通过 ProRL 实现 7B 级推理性能。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐