• RLHF的标准四步流程
  • DPO的数学消元技巧
  • GRPO的组内对比设计
  • 一条做减法的演进主线

在大模型(LLM)的演进过程中,**对齐(Alignment)**是让模型从“乱说话的概率预测器”变成“听话的智能助手”的关键。对齐的核心目标是使模型的输出符合人类的价值观、意图和偏好(即 Helpful, Honest, Harmless)。

从早期的 RLHF 到如今大火的 GRPO,技术路线经历从“复杂昂贵”到“极简高效”的剧烈变革。

RLHF的标准四步流程

RLHF(Reinforcement Learning from Human Feedback) 标准流程:四步,如下图所示:
RLHF(Reinforcement Learning from Human Feedback) 标准流程

  1. 预训练。拿大规模语料,让模型学到语言能力,但此时它只会[接话],不会[听话]
  2. SFT。拿人工写的高质量prompt-reponse对,教模型学会按指令回答问题。到这一步模型能干活了,但它不知道真么叫做[好]什么叫[不好]
  3. 训练Reward Model。
    1. 同一个prompt,让SFT模型生成多个回答,

    2. 然后让人类标注员来排序,哪个好那个差,

    3. 用这些偏好数据,基于Bradley-Terry模型训练一个打分器出来。

训练Reward Model过程如下图所示:
Bradley-Terry模型
Bradley-Terry模型的意思就是假设人类选A不选B的概率正比于A和B奖励分数之差的sigmod。
Bradley-Terry 模型:经典的人类偏好建模方法及其在 DPO 方法中的应用
Bradley-Terry模型的数学表示
这样就可以用标注的数据做极大似然,把Reward Model 学出来

  1. PPO优化(近端策略优化):通过强化学习算法,在奖励模型的指导下调整模型参数。通过PPO算法去调整策略模型的输出分布,让他尽量往高分方向靠,同时加一个KL散度约束,不让他偏离参考模型太远。
    1. 用Reward Model的打分作为奖励信号
    2. 具体来说,PPO会维护一个Value Model,也叫Critic ,来估计当前状态的价值
    3. 然后通过实际奖励和价值估计的差值来计算优势函数
    4. 再用clip机制限制每一步的策略更新幅度,防止训崩。
      PPO

GPT3.5就是这样训练出来的,但是问题就很明显

  • 同时需要维护四个模型:策略模型、参考模型、奖励模型、价值模型。
  • 显存压力巨大,PPO本身的超参数也非常难调。
  • Reward Hacking问题也很常见。模型学会了骗Reward Model拿高分,而不是真的在变好。
  • 核心矛盾是:RLHF的训练范式太重了,工程复杂度和训练稳定性都是瓶颈

DPO的数学消元技巧

Q:DPO是怎么解决这个问题的?

Ans:能不能不训Reward Model,直接用偏好数据优化策略

要理解它为什么能做到,首先理解一个关键数学事实:在RLHF的目标函数里,我们要最大化期望奖励同时最小化跟参考策略的KL散度,这个带KL约束的优化问题其实是有闭式解的。

最优策略=参考策略×exp(奖励函数)/配分函数

公式化表达为:

image-20260316141547007

其中π_ref为固定的参考模型,r(x,y)为奖励函数,β为 KL 约束的温度系数,Z(x)是仅和输入 prompt x 相关的配分函数(归一化常数)。

在这里插入图片描述

对这个闭式解做公式变形,就能实现一个核心的逻辑反转:奖励函数可以完全用最优策略和参考模型的对数概率差来表示,公式为:

image-20260316141649759

其中C(x)是仅和输入 prompt x 相关、与生成内容 y 无关的常数项。

接下来是 DPO 最关键的消元步骤:

在这里插入图片描述

人类偏好建模的核心是 Bradley-Terry(BT)模型,其核心逻辑是:人类更偏好优胜回答y_w、而非劣败回答y_l的概率,由两个回答的奖励分差值的 sigmoid 函数决定。

当我们把上面反转后的奖励函数表达式代入 BT 偏好模型时,会发现:仅和输入 x 相关的常数项C(x),在y_w和y_l的奖励差值计算中会被完全抵消。

最终得到的人类偏好概率表达式里,奖励模型的所有相关项被彻底消除,整个式子仅由策略模型、参考模型分别在优胜回答和劣败回答上的对数概率比之差,再经过 sigmoid 函数映射得到,完全不再依赖任何独立训练的奖励模型。

基于这个数学等价性,DPO 直接对这个偏好概率表达式做极大似然估计,构建出最终的 DPO 损失函数,实现了完全绕开奖励模型、价值模型和 PPO 复杂的强化学习采样迭代循环,仅用成对的人类偏好数据,直接优化策略模型。

剩下的就是:

人类选好回答的概率=策略模型和参考模型在好回答与坏回答上的对数概率比之差,再套一个sigmod。

这个表达式里面**已经没有Reward Model 的任何参数了,全部都是策略模型和参考模型**的概率。

所以可以直接对这个式子**做极大似然,Reward Model 就被数学上等价地消掉了**。这一核心创新,带来了 RLHF 范式的革命性简化,核心收益包括:

  1. 彻底砍掉了独立的奖励模型、价值模型训练环节,训练所需的模型从 4 个缩减为 2 个(仅需待优化的策略模型 + 全程冻结的参考模型);
  2. 完全消除了 PPO 算法复杂的在线采样迭代循环,把高难度的强化学习问题,转化为了简单的有监督式损失优化问题,工程实现难度和算力成本大幅下降;
  3. 彻底规避了 PPO 训练中常见的训练不稳定、奖励黑客、超参数高度敏感等痛点,训练过程更稳定,对齐效果更可控。

Q:DPO就没有问题吗?
Ans:在这里插入图片描述
DPO是offline的,他/她只学习训练数据中已有的偏好对,不会像PPO那样在线探索采样–DPO的分布偏移问题
在这里插入图片描述
偏好数据的分布和当前策略的输出分布之间会出现偏移,偏移越大,DPO的优化方向就不准,正因为这个问题,后来出现了一系列DPO的变体。
在这里插入图片描述

  • Iterative DPO和Online DPO的核心思路就是在训练过程中不断用当前模型重新采样,重新标注偏好对,来缓解分布偏移。
  • KTO更激进,连成对的偏好数据都不要了,只需要回答【这个回答好】或者【这个回答不好】的单条标签就能训练

整个社区都在做减法,不断追问到底哪些组件是可以省略掉的。

GRPO的组内对比设计

GRPO(Group Relative Policy Optimization)是 DeepSeek 团队提出的轻量化强化学习对齐算法,最早落地于 DeepSeek Math 数学推理模型,后在 DeepSeek R1 等爆款模型中大规模应用。它走出了与 PPO、DPO 不同的优化路径,核心解决了数学推理、代码生成等可验证任务,无需人工标注偏好数据、无需复杂模型组件,就能实现高效的策略对齐的核心痛点。

一、GRPO 的核心定位:解决了什么问题

在 GRPO 之前,大模型对齐的两大主流范式各有明显短板:

  • RLHF+PPO:对齐能力完整、支持在线训练,但架构极重,需要训练奖励模型、价值模型、策略模型、参考模型共 4 个模型,工程复杂度高、算力成本大,且高度依赖人工标注的偏好数据;
  • DPO:通过数学等价性砍掉了奖励模型和价值模型,仅需 2 个模型,大幅简化了流程,但它是离线(offline)训练范式,必须依赖提前准备好的成对偏好数据,无法实现模型的在线自优化,也无法适配可自动化验证的任务场景。

而 GRPO 的核心突破,是针对数学推理、代码生成这类答案可直接自动化验证、有明确对错标准的任务,提出了一个极简的解决方案:既然能直接验证答案对错,就完全不需要人工标注偏好,也不需要额外训练奖励模型、价值模型,就能实现轻量化的在线强化学习对齐。

二、GRPO 的核心机制:从强化学习谱系看设计巧思

要理解 GRPO 的核心设计,必须先看强化学习中 Baseline(基线)的演进脉络,这也是 GRPO 最核心的创新点所在。

1. Baseline 的演进:GRPO 的设计源头

强化学习策略梯度训练的核心痛点,是梯度估计的方差过大,导致训练极不稳定,而 Baseline 的核心作用就是降低方差,整个演进路径如下:

  1. REINFORCE:纯策略梯度算法,无 Baseline,仅用单个样本估计梯度,方差极大,训练完全不可控;
  2. REINFORCE + Baseline:引入基线项抵消梯度噪声,大幅降低方差,但「Baseline 该怎么估计」成了新的核心难题;
  3. PPO:专门训练一个独立的Value Model(价值模型) 来预估 Baseline,完美解决了方差问题,但引入了额外的模型组件,工程复杂度和训练成本大幅上升;
  4. GRPO:用「同批次组内奖励均值」作为免费的 Baseline,无需训练任何额外模型,样本量足够时估计精度完全达标,彻底砍掉了价值模型,同时保留了 PPO 的训练稳定性。

在这里插入图片描述

在这里插入图片描述

GRPO本质是REINFORCE算法的一个变体

  • 经典的REINFORCE用单个样本估计梯度,方差很大,训练不稳。
  • 后来人们加了baseline来降方差,但是baseline怎么估又是个问题
  • PPO专门训了一个Value Model来干这个事情
  • GRPO的聪明之处在于,它说我不需要学一个baseline,我直接采一组样本,用这一组的平均奖励当baseline就行了,样本量足够大的时候,这个估计已经足够准了,而你省掉了整个Value Model,同事GRPO的梯度还是PPO风格的

2. GRPO 完整工作流程

GRPO 本质是 REINFORCE 与 PPO 优点的务实结合,它沿用了 REINFORCE 的极简策略梯度框架,同时吸收了 PPO 保障训练稳定的核心设计,完整流程分为 6 步:

  1. 分组批量采样:对同一个 Prompt,一次性采样生成一组输出(通常为 16 个、64 个),这是「分组」的核心基础;
  2. 自动化奖励打分:无需人工标注、无需奖励模型,直接用规则 / 验证器给每个输出自动打分 —— 数学题校验最终答案是否正确,代码跑测试用例验证是否通过,完全实现自监督;
  3. 组内 Baseline 与优势计算:用该组所有输出的奖励均值作为 Baseline,结合组内标准差做归一化,计算每个输出的相对优势值(优势 = 当前样本奖励 - 组内均值),无需任何额外模型学习;
  4. PPO 风格梯度更新:沿用 PPO 的核心 Clip 裁剪机制,严格限制策略模型的参数更新幅度,避免单次更新过猛导致模型崩塌、能力退化;
  5. KL 约束兜底:加入与固定参考模型的 KL 散度约束,惩罚策略模型与初始模型的输出分布偏差,防止模型为了刷分出现「奖励黑客」行为,保留基础语言与推理能力;
  6. 循环迭代:重复采样 - 打分 - 更新的流程,完成策略模型的在线对齐优化。

在这里插入图片描述
三、GRPO vs PPO vs DPO:三大对齐范式核心对比

GRPO 完美补齐了 PPO 和 DPO 的短板,形成了「重而全、轻而离线、轻而在线」的清晰演进线,核心差异如下表:

对齐范式 核心依赖组件 训练模式 所需模型数量 核心特点
RLHF+PPO 奖励模型 RM、价值模型 VM、策略模型、参考模型 在线训练 4 个 重但完整,适配全场景,高度依赖人工偏好数据
DPO 策略模型、参考模型 离线训练(offline) 2 个 轻但 offline,依赖离线成对偏好数据,无法在线自优化
GRPO 策略模型、参考模型 在线训练(online) 2 个 轻且 online,无需 RM/VM,无需人工偏好标注,可通过验证器自动在线优化

GRPO 的核心优势非常明确:它既像 DPO 一样,把训练所需的模型从 4 个精简到 2 个,彻底砍掉了奖励模型和价值模型,工程复杂度、算力成本大幅下降;又保留了 PPO 的在线训练能力,无需提前准备离线偏好数据,能通过自动化验证器实现模型的自监督在线迭代,完美适配可验证类任务。

四、GRPO 的适用边界

GRPO 的能力边界非常清晰,核心取决于任务结果是否可自动化、标准化验证,和 DPO 形成了明确的场景互补。

适合:核心是有明确标准答案、结果可直接自动化验证的任务:

  • 数学推理、逻辑计算:答案可直接校验对错,是 GRPO 的原生落地场景;
  • 代码生成、工具调用:可通过测试用例、执行结果自动验证是否符合预期;
  • 其他有明确对错标准、可自动化校验的结构化任务。

不适合:无明确对错标准、高度依赖人类主观偏好的任务:

  • 开放式对话、闲聊:没有唯一标准答案,好坏完全取决于人类的主观偏好与对话适配度;
  • 创意写作、文案创作:风格、文采、创意没有统一的可量化、可自动化验证标准;
  • 其他无法自动化校验、必须依赖人类主观判断的非结构化任务。

GRPO的适用边界

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐