Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
论文全景速览
| 项目 | 内容 |
|---|---|
| 标题 | Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe |
| 核心问题 | 同策略蒸馏(OPD)在什么条件下成功/失败?其令牌级机制是什么?如何修复失败? |
| 主要发现 | ① 思维模式一致性 + 教师提供新知识 是必要条件;② 成功OPD表现为高概率重叠令牌的渐进对齐;③ 仅优化重叠令牌即可;④ 长轨迹下奖励退化;⑤ 单令牌采样已足够 |
| 实验规模 | 多系列模型(Qwen、DeepSeek、Skywork)、多个数学基准(AIME 2024/2025、AMC 2023)、多种教师-学生配对 |
| 代码开源 | GitHub - thunlp/OPD: Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe · GitHub |
论文结构总览
-
第1节:引言 – OPD背景、失败模式、本文贡献
-
第2节:预备知识 – OPD三种形式、动态监控指标
-
第3节:现象学 – 两个条件(思维模式一致、新知识)
-
第4节:机制 – 渐进对齐、重叠令牌充分性
-
第5节:配方 – 离策略冷启动、教师对齐提示
-
第6节:讨论 – 长度限制、奖励几何、支持集大小
-
第7节:相关工作
-
第8节:结论与未来工作
-
附录:GRPO训练细节、超参数表、附加实验
详细解读
第1节:引言
1.1 OPD的兴起
-
例子:Qwen3、MiMo、GLM-5 都在后训练中采用OPD。
-
Thinking Machines Lab 用OPD复现了Qwen3的效果,成本仅为RL的一小部分。
1.2 OPD vs 离策略蒸馏
-
离策略蒸馏:学生固定学习教师生成的序列 → 暴露偏差(训练和推理时的输入分布不同)。
-
OPD:学生自己生成轨迹,利用教师逐token log概率作为稠密奖励 → 缓解暴露偏差。
1.3 失败模式示例(图1)
-
JustRL-1.5B:对DeepSeek-Distill-1.5B(DS1.5B)做RL得到,再用它作为教师蒸馏回DS1.5B → 成功。
-
Skywork-OR1-Math-7B:对DS-7B做RL得到,再用它作为教师蒸馏DS-7B → 成功。
-
反例:直接用更大的同族教师(如R1-Distill-7B)蒸馏1.5B学生 → 失败。
1.4 本文贡献(三点)
-
现象学:识别两个条件。
-
机制:发现重叠令牌是OPD的主要学习信号。
-
配方:提供两种修复策略 + 揭示OPD的代价(长轨迹退化)。
第2节:预备知识
2.1 符号
-
学生:πθπθ,教师:πTπT(冻结)。
-
提示 x∼Dxx∼Dx,学生生成 y^=(y^1,...,y^T)y^=(y^1,...,y^T)。
-
逐token分布:学生 pt(⋅)=πθ(⋅∣x,y^<t)pt(⋅)=πθ(⋅∣x,y^<t),教师 qt(⋅)=πT(⋅∣x,y^<t)qt(⋅)=πT(⋅∣x,y^<t)。
2.2 OPD的三种形式
(1) 采样令牌OPD
-
损失:ℓtsample=logpt(y^t)−logqt(y^t)ℓtsample=logpt(y^t)−logqt(y^t)
-
期望:Ey^t∼pt[ℓtsample]=DKL(pt∥qt)Ey^t∼pt[ℓtsample]=DKL(pt∥qt)
-
优点:无偏单样本估计,计算轻量。
-
缺点:方差可能大。
(2) 全词汇OPD
-
损失:∑tDKL(pt∥qt)∑tDKL(pt∥qt)
-
内存:O(BTM)O(BTM),MM 为词汇表大小(通常~128k),不可行。
(3) Top-K OPD(本文主要采用)
-
选择学生Top-K令牌集 St=TopK(pt,k)St=TopK(pt,k)。
-
在 StSt 上重新归一化学生和教师分布:
pˉt(St)(ν)=pt(ν)1[ν∈St]∑u∈Stpt(u),qˉt(St)(ν)=qt(ν)1[ν∈St]∑u∈Stqt(u)pˉt(St)(ν)=∑u∈Stpt(u)pt(ν)1[ν∈St],qˉt(St)(ν)=∑u∈Stqt(u)qt(ν)1[ν∈St] -
损失:∑tDKL(pˉt(St)∥qˉt(St))∑tDKL(pˉt(St)∥qˉt(St))。
-
优点:保留多令牌监督,计算成本可控(O(BTk)O(BTk))。
2.3 动态监控指标(后续实验使用)
-
重叠率:∣St(p)∩St(q)∣kk∣St(p)∩St(q)∣,平均。
-
衡量高概率令牌集的重叠程度。
-
-
重叠令牌优势:
At(ν)=pˉt(ν)(logqˉt(ν)−logpˉt(ν))At(ν)=pˉt(ν)(logqˉt(ν)−logpˉt(ν))在重叠集上平均。接近0表示学生与教师在该区域的置信度匹配。
-
熵与熵差距:
H(pt)=−∑pt(ν)logpt(ν),ΔHt=∣H(qt)−H(pt)∣H(pt)=−∑pt(ν)logpt(ν),ΔHt=∣H(qt)−H(pt)∣
第3节:现象学
3.1 条件1:思维模式一致性
实验设置(图2,3)
-
学生:Qwen3-1.7B-Base
-
教师A:Qwen3-4B (Non-thinking) – 普通指令模型
-
教师B:Qwen3-4B-Base-GRPO – 在DAPO-Math-17K上用GRPO训练1 epoch(超参见附录表1)
-
GRPO参数:rollout n=8,max response length=7168,lr=1e-6,temperature=1.0,无KL正则
-
-
数据集:DAPO-Math-17K(约1.7万数学问题)
-
评估基准:AIME 2024, AIME 2025, AMC 2023
-
评估协议:每个问题采样16个答案(temperature=0.7, top-p=0.95),报告avg@16
-
OPD超参:默认表2(temperature=1.0,batch size=64,rollout number=4,max response length=7168,Top-K=16,学生Top-K策略)
结果(图2)
-
教师B(GRPO):虽然基准分数略低于教师A(图3),但OPD后学生性能显著高于用教师A蒸馏的学生。
-
重叠率动态:教师B初始重叠率(约0.65)高于教师A(约0.55),尽管后期趋同,但性能差距持续存在。
-
逐基准拆分(附录A.3,图17):优势在AMC 2023和AIME 2024上更明显,AIME 2025上较小但趋势一致。
结论
-
思维模式一致性(反映在初始重叠率)比教师的绝对分数更重要。
-
早期不匹配的损失无法通过后续训练完全恢复。
3.2 条件2:教师必须提供新知识
实验设置(图4)
在两个模型家族中进行:
家族1:DeepSeek
-
学生:DeepSeek-R1-Distill-Qwen-1.5B (R1-Distill-1.5B)
-
教师A(同管道):DeepSeek-R1-Distill-Qwen-7B (R1-Distill-7B) – 更大但训练数据相同
-
教师B(有额外RL):Skywork-OR1-Math-7B – 从R1-Distill-7B继续用RL训练得到
家族2:Qwen
-
学生:Qwen3-1.7B (Non-thinking)
-
教师A(同管道):Qwen3-4B (Non-thinking)
-
教师B(有额外RL):Qwen3-4B-Non-Thinking-RL-Math – 在DeepMath的57k子集上做RL
结果
-
同管道教师(即使更大)→ 学生提升很小(gap recovery rate低)
-
有额外RL的教师 → 大幅提升,gap recovery rate高(图4右图)
-
例如:DeepSeek家族,同管道教师恢复率约0.2,额外RL教师恢复率约0.8
解释
-
同管道教师与学生见过完全相同的训练数据分布,没有引入新行为模式。
-
额外RL使教师学到了学生未知的推理步骤或解题策略,这些可以通过OPD传递。
3.3 反向蒸馏(图5)
设计
-
学生:JustRL-1.5B(由R1-Distill-1.5B通过RL得到,性能更强)
-
教师1:R1-Distill-1.5B(学生的前身,性能弱)
-
教师2:R1-Distill-7B(同族更大模型,性能略高于JustRL-1.5B)
惊人结果
-
两个教师都导致学生严重回退到≈R1-Distill-1.5B的水平。
-
尽管教师2绝对分数更高,但蒸馏后的学生性能与使用教师1几乎相同。
深刻含义
-
OPD本质上是在学习教师的思维模式,而不是简单提升分数。学生被迫覆盖教师的高概率区域,从而覆盖掉自己通过RL获得的新模式。
-
同族不同规模的模型,在学生访问的状态上诱导出几乎相同的局部分布。这意味着R1-Distill-7B虽然整体更强,但在学生生成的前缀上,其概率分布与1.5B版本非常接近。
-
基准分数与OPD训练动态完全解耦。高分数不代表对学生有可迁移的新知识。
第4节:机制
4.1 成功OPD = 渐进对齐高概率令牌(图6)
对比设置
-
固定学生:R1-Distill-1.5B
-
成功教师:JustRL-1.5B(从同一学生RL得到)
-
失败教师:R1-Distill-7B(同族更大,无新知识)
动态指标(图6底行)
| 指标 | 成功 (JustRL) | 失败 (R1-Distill-7B) |
|---|---|---|
| 重叠率 | 从72% → 91% | 稳定在约70% |
| 重叠令牌优势 | 从负值趋近0 | 始终为负且不改善 |
| 熵差距 | 从较大缩小到接近0 | 保持较大 |
辅助指标(附录B.2,图19)
-
PG Loss:成功run从较高初始值持续下降;失败run初始就很低且变化小 → 失败run的教师信号弱,不是“已经很好”。
-
梯度范数:成功run梯度大且持续;失败run梯度一直很小。
-
极端令牌概率差(最大advantage的token):成功run逐渐缩小;失败run保持较大差距。
重叠质量(附录B.1,图18)
-
在成功run中,重叠令牌集覆盖的学生和教师概率质量始终在97%-99%之间。
-
因此“重叠率”不是空集重叠,而是支配性概率质量的重叠。
4.2 仅优化重叠令牌就足够(图7)
实验设计
-
使用成功配对(JustRL-1.5B → R1-Distill-1.5B)
-
比较三种Top-K优化支持集:
-
Student Top-K:St(p)St(p)(基准)
-
Overlap Top-K:St(p)∩St(q)St(p)∩St(q)(交集)
-
Non-Overlap Top-K:St(p)ΔSt(q)St(p)ΔSt(q)(对称差)
-
-
k=16(默认)
结果
-
Overlap Top-K 性能 ≈ Student Top-K(在三个基准上几乎重合)
-
Non-Overlap Top-K 性能显著差很多
-
重叠率动态(图7左下):
-
Student Top-K 和 Overlap Top-K 都使重叠率从72% → 91%
-
Non-Overlap Top-K 重叠率先下降后仅部分恢复
-
机制解释
-
自我强化循环:当一个共享令牌被教师青睐,学生通过reverse KL更新将更多概率质量集中到它上,逐渐将非重叠令牌挤出Top-K集。
-
因此OPD的主要学习信号完全来自重叠的高概率令牌,非重叠令牌几乎不贡献有效梯度。
第5节:实践配方
5.1 离策略冷启动(图8)
背景
-
学生:Qwen3-1.7B-Base
-
教师:Qwen3-4B (Non-thinking) —— 原始配对的初始重叠率低,OPD效果差
冷启动步骤
-
教师生成离线响应:
-
从OpenThoughts3-1.2M中采样200K数学提示
-
教师生成响应(temperature=0.7, top-p=0.95, max length=12288)
-
过滤不完整或重复的响应
-
-
学生SFT:
-
在200K(提示,教师响应)对上全参数微调
-
超参:附录表3(lr=1e-5,cosine scheduler,epoch=1,sequence length=14336)
-
得到 Qwen3-1.7B-SFT
-
-
OPD:从SFT初始化继续OPD(使用剩余约30K prompts,去重后)
结果
-
SFT+OPD 显著优于 纯OPD(图8)
-
重叠率(图8右下):SFT初始重叠率已很高(≈0.75),而base初始≈0.55,且SFT训练更稳定
-
重叠质量(附录C.2,图21):SFT初始化的学生保持很高的overlap mass(>0.95),而base初始波动大且较低
结论
-
离策略冷启动通过缩小初始思维模式差距,使后续OPD的教师信号立即可用。
5.2 教师对齐的提示选择
(a) 提示模板对齐(图9)
设置:
-
教师:JustRL-1.5B
-
学生:R1-Distill-1.5B
-
同一组数学问题(DAPO-Math-17K),仅模板不同:
-
原始DAPO模板:
Solve the following math problem step by step. The last line... Answer: $Answer -
教师对齐模板:
{Question} Please reason step by step, and put your final answer within \boxed{}
-
结果:
-
教师对齐模板 → 三个基准上准确率均更高(图9左)
-
重叠率更高且增长更稳定(图9右)
-
逐基准拆分(附录C.4,图22):AIME上提升更明显,AMC上较小但正向
(b) 提示内容对齐(图10)
设置:
-
教师:Qwen3-4B-Base-GRPO
-
学生:Qwen3-1.7B-Base
-
比较两种prompt集(大小匹配):
-
DAPO-Math-17K(与教师RL训练数据有重叠)
-
DeepMath子集:从DeepMath中去除与DAPO精确匹配和语义相似(余弦相似度≥0.6)的问题(附录C.3)
-
结果:
-
教师对齐内容(DAPO)→ 性能更高(图10左)
-
但重叠率反而更低(图10中)→ 为什么?因为重叠集虽小,但质量更高:学生在该集上的概率质量更高(即更集中)。
-
问题:教师对齐内容导致学生熵显著降低(图10右)→ 过度自信,可能降低探索能力。
建议:混合使用教师对齐提示和分布外提示,以保持熵。
第6节:讨论
6.1 奖励质量随轨迹深度退化(图11-13)
实验A:不同最大响应长度(图11a, 图12)
-
训练R1-Distill-1.5B ← JustRL-1.5B,200步
-
最大响应长度:0.5K, 1K, 3K, 7K, 10K, 15K tokens
-
结果:
-
太短(0.5K,1K):监督token太少,学习效率低
-
中等(3K,7K):最佳性能
-
太长(10K,15K):性能下降或平台,且出现后期崩溃(图12:重叠率在约150步后骤降,伴随熵和梯度范数尖峰)
-
-
诊断(图13, 附录D.1):
-
在15K设置下,分析学生熵随输出位置的变化:高熵首先出现在响应末尾,然后逐渐向前传播。
-
教师熵也有相同模式(附录D.1图23)→ 教师对长前缀不熟悉,产生噪声奖励,进而破坏学生。
-
实验B:教师续写能力随前缀深度下降(图11b)
-
从学生生成长响应(>16K)中采样2K个
-
在不同位置截断,让教师续写,比较教师 vs 学生原始续写的准确率
-
结果:
-
前缀1K:教师准确率领先+0.37
-
前缀4K:+0.23
-
前缀8K:+0.11
-
前缀12K:+0.04
-
前缀16K:+0.02(几乎无优势)
-
结论:OPD存在一个最佳响应长度窗口(约3-7K),过短信号不足,过长奖励退化。
6.2 全局有用 ≠ 局部可优化(图14)
实验
-
使用第4.1节的对比(成功教师JustRL-1.5B vs 失败教师R1-Distill-7B)
-
对每个学生生成的完整响应,计算序列平均奖励:
rˉ(y)=1T∑t=1T[logqt(y^t)−logpt(y^t)]rˉ(y)=T1t=1∑T[logqt(y^t)−logpt(y^t)] -
将响应分为正确和错误两组,比较 rˉrˉ 的分布
结果(图14)
-
两个教师的 rˉrˉ 分布都能清晰区分正确/错误响应,AUROC分别为0.73和0.75 → 全局信号都有用。
-
但OPD只有JustRL成功 → 说明失败不在于全局信息不足。
假设:奖励几何的各向异性
-
失败教师的逐token advantage虽然幅度大,但在序列内方向不一致,导致梯度相互抵消。
-
成功教师的advantage更相干,产生更大的有效梯度。
-
(作者未直接验证,留作未来工作)
6.3 采样令牌奖励已足够(图15-16)
实验
-
学生:R1-Distill-1.5B,教师:JustRL-1.5B
-
比较:采样令牌 OPD vs Top-{1,4,16,64} OPD
结果
-
Top-1:表现最差,不稳定,重叠率有尖峰,梯度范数尖峰(图16)
-
采样令牌、Top-4、Top-16、Top-64 性能相近(图15)
-
原因:
-
采样令牌是无偏估计,且随着训练,采样的token逐渐集中在高概率区域。
-
Top-1是有偏的、模式集中的选择,小改变可能导致argmax翻转,信号不稳定。
-
第7-8节:相关工作和结论
相关工作亮点
-
蒸馏中的容量差距:前人发现过大教师会损害蒸馏,本文指出思维模式匹配更重要。
-
自蒸馏:近期工作扩展,本文的条件(新知识)在自蒸馏中对应于特权信息(如gt答案)。
未来工作
-
领域泛化:当前仅在数学上验证,需扩展到代码、开放域。
-
预训练数据影响:难以分离,需要更精细控制。
-
自蒸馏动力学:当学生=教师时,条件如何变化?
-
长时序/智能体:混合密集token奖励 + 稀疏结果奖励,或课程学习。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)