【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

King的王国 · 2026-05-13 10:00:00 发布

核心结论：这篇NeurIPS 2025论文（NVIDIA 团队）: ProRL 通过延长稳定的 RL 训练，让模型在新颖、困难、基座不会的任务上，真正学到新的推理策略，实现推理边界的扩展，而不是简单地优化已有能力。

RL 能否让 LLM 发现base模型穷尽采样也无法触及的全新推理策略？延长训练能否持续提升推理性能？

实现超 2000 步稳定 RL 训练，避免 “熵崩溃”（输出分布过早收敛、探索枯竭）。

左图 Left：Pass@1 和 Pass@16 随 ProRL 训练稳步上升

横轴：延长 RL 训练步数

纵轴：解题正确率（Pass@1、Pass@16）

现象：随着训练越久，Pass@1 和 Pass@16 持续上涨、没有停滞、没有坍塌。

说明：延长 RL 训练是有用的，不是越练越差，而是越练越强。训练越久，正确率越高；

中图 Middle：ProRL 让解法更新颖，创造力指数更高

纵轴：Creativity Index 创造力指数越高 = 解法越新颖、越没见过、和基座 / 预训练越不一样。

现象：随着 ProRL 训练，创造力指数一路上升。

说明：ProRL 不只是 “把题做对”，还在探索新解法、学到基座没有的推理策略。训练越久，解法越新颖、创造力越强；

注明：创造力指数：ProRL 输出与预训练语料的n-gram 重叠度更低，证明是原创推理而非复述。

右图 Right：ProRL 在各类任务上大幅超越基座模型

对比： base 模型 vs ProRL 模型

现象：在所有任务上，ProRL 的性能都远高于基座。

说明：ProRL 不是只在某一类任务有效，而是通用、稳定、全面地提升推理能力。在各类任务上，ProRL 都能大幅超越基座模型。

结合DAPO 的优化方法，并加入 KL 散度约束，成功避免了熵坍塌，让模型在长时间训练中保持输出多样性

同时发现，虽然回答长度和性能有一定正相关，但这并不是决定性因素，因为很多阶段性能提升时，回答并没有变长。这说明 ProRL 的提升来自更优的推理，而不是更啰嗦的输出。

最关键的是，无论是 Pass@1 还是 Pass@16，验证性能全程稳步提升，训练越久效果越好。

Figure 3 阐述了：ProRL 到底在什么任务上最有用。

结论：

基座模型越不会做的任务，ProRL 越能真正扩展推理边界；

基座本来就会、和预训练数据重叠高的任务，RL 提升很小。

所以 ProRL 的真正价值，不是优化已有能力，而是解锁基座完全不具备的新推理能力。

左边图（Left）解释

右边图（Right）解释

Creativity index（创造力指数）：论文里用来衡量 任务有多新颖、和预训练数据重叠度有多低。
- 高 creativity = 任务很新、预训练里几乎没有
- 低 creativity = 任务很常规、预训练里见过很多

图里圈出来的任务：圈里的任务 = RL 之后几乎不涨点。
规律：这些不涨点的任务，全都集中在 low creativity index 区域
- 这么理解：这些任务在预训练里本来就大量出现，模型早就会了，RL 再怎么练也提升有限。
总结：RL 提升小的任务，都是因为预训练已经 “喂饱” 了；只有新颖、预训练里很少见、创造力高的任务，ProRL 才能真正突破边界。