DeepSeek V4的 OPD 的训练问题
为什么
在 DeepSeek-V4 的后训练(Post-training)阶段,将传统的混合强化学习(Mixed RL)全面替换为同策略蒸馏(On-Policy Distillation, OPD),是解决大模型对齐阶段“多目标优化冲突”和“训练不稳定性”的一个极具前瞻性的架构决策。
作为一直关注强化学习(如 PPO、GRPO)和模型后训练优化的研究者,你肯定深知 RL 阶段的痛点。我们从 “什么是 OPD” 以及 “为什么要替换 Mixed RL” 两个层面来进行硬核的技术拆解。
一、 核心概念:什么是 OPD (On-Policy Distillation)?
为了理解 OPD,我们需要将它与传统的“离策略蒸馏”进行对比:
-
传统的离策略蒸馏 (Off-Policy Distillation / SFT)
- 做法:让强大的 Teacher 模型(如 DeepSeek-V4-Pro-Max)生成海量高质量回答,Student 模型直接拿着这些数据做有监督微调(Behavior Cloning)。
- 致命缺陷 (Exposure Bias):Student 一直在被动模仿 Teacher 的轨迹。在实际推理时,Student 一旦生成了一个偏离 Teacher 风格的 Token,后续的生成就会产生误差累积(Covariate Shift),导致彻底崩溃。
-
同策略蒸馏 (On-Policy Distillation, OPD)
- 做法:由 Student 模型使用其当前的策略(Policy πθ\pi_\thetaπθ)去生成回答(这就是 On-Policy 的含义)。在生成的每一步,或者生成完一条轨迹后,引入 Teacher 模型(或其强大的中间状态)作为“裁判”,计算 Student 的输出概率分布与 Teacher 目标分布之间的散度(如 KL 散度),从而更新 Student。
- 优势:Student 是在“自己的能力范围和分布”内试错。老师只在学生自己走出的路线上给出纠正。这完美解决了 Exposure Bias 问题。
二、 为什么用 OPD 彻底替换 Mixed RL?
在 DeepSeek-V3 及其之前的阶段,为了让模型既懂做题(代码、数学)又懂聊天(通用指令),业界通常采用 混合强化学习(Mixed RL)。即用基于规则的奖励(Rule-based RM)训练理科,用基于偏好的奖励(Preference RM)训练文科,然后在一个 PPO/GRPO 循环里做多目标优化。
但这种 Mixed RL 存在严重的工程和算法瓶颈,这也是 V4 转向 OPD 的核心原因:
1. 消除高方差的“标量盲盒”,引入低方差的“全息梯度”
- Mixed RL 的痛点:RL 给出的 Reward 是一个标量(Scalar)(比如这道题得 0.8 分)。模型需要通过策略梯度(Policy Gradient)去“猜”到底是哪个 Token 写得好。这种稀疏反馈导致了极高的梯度方差。
- OPD 的降维打击:在 OPD 中,Teacher 给出的不是一个分数,而是整个词表的概率分布(Logits / Soft Labels)。这就把 RL 中基于采样的、高方差的黑盒优化,直接变成了基于 KL 散度(交叉熵)的、低方差的白盒优化。训练效率和收敛速度呈指数级提升。
2. 解决“多目标打架”与对齐税 (Alignment Tax)
- Mixed RL 的痛点:当你把 Math RM 和 Chat RM 的损失强行加在一起训练时,模型极易产生奖励劫持(Reward Hacking)。比如为了迎合 Chat RM 的语气偏好,数学推理的严谨性就会下降;或者理科能力上升的同时,通用对话能力变差(即严重的对齐税)。
- OPD 的解法:如果你已经有一个“既聪明又懂事”的超强 Teacher 模型(例如通过极大算力、极致探索训练出的 Pro-Max 版本,或深度融合了强化学习搜索树的满血模型),Teacher 的 Logits 本身就已经是多目标完美平衡后的结果。Student 直接去对齐这个已经处于帕累托最优(Pareto Optimal)的分布,就不需要再在底层重新做多目标权衡,从而完美规避了对齐税。
3. 规避 RL 的格式崩溃与 KL 惩罚难题
- Mixed RL 的痛点:为了防止 RL 把模型训崩,通常需要引入一个与参考模型(Ref Model)的 KL 惩罚项。但在混合分布下,动态调整 KL 惩罚的系数(β\betaβ)是一门极难的“玄学”。
- OPD 的解法:OPD 本质上就是在直接最小化当前策略与 Teacher 策略之间的距离:minθEx∼D,y∼πθ[DKL(πT∣∣πθ)]\min_\theta \mathbb{E}_{x \sim D, y \sim \pi_\theta} [D_{KL}(\pi_T || \pi_\theta)]minθEx∼D,y∼πθ[DKL(πT∣∣πθ)]。它天然自带对齐属性,彻底抛弃了繁琐的价值网络(Critic/Value Network)和复杂的优势函数(Advantage Estimation,如 GAE)计算,释放了大量的显存用于增大 Batch Size 或 Context Length。
4. 完美契合推理模型 (Reasoning Models) 的能力下放
DeepSeek 在 R1 时代就已经验证了:强大的推理能力(比如长思维链)是可以通过提纯后直接蒸馏给小模型或基础模型的。在 V4 中,用 OPD 替代 Mixed RL,意味着团队认为**“让主干模型去零起步做 RL 探索”已经不再是获取能力的最高效路径**。利用前沿的顶配模型作为 Teacher,在主干模型的 On-Policy 轨迹上进行手把手的 Logits/Reward 蒸馏,是跨越能力天花板且工程上最鲁棒的范式。
总结
从 Mixed RL 走向 OPD,是 LLM 后训练走向成熟的标志之一。它意味着我们将**“探索(Exploration)”和“吸收(Exploitation)”**彻底解耦:把极其昂贵、不稳定的 RL 探索留给云端的“天花板模型(Teacher)”去慢慢做;而对于需要大规模部署的主力模型(Student),则用极其稳定、低方差、高信号密度的 OPD 去快速吸收 Teacher 的功力。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)