论文全景速览

项目 内容
标题 Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
核心问题 同策略蒸馏(OPD)在什么条件下成功/失败?其令牌级机制是什么?如何修复失败?
主要发现 ① 思维模式一致性 + 教师提供新知识 是必要条件;② 成功OPD表现为高概率重叠令牌的渐进对齐;③ 仅优化重叠令牌即可;④ 长轨迹下奖励退化;⑤ 单令牌采样已足够
实验规模 多系列模型(Qwen、DeepSeek、Skywork)、多个数学基准(AIME 2024/2025、AMC 2023)、多种教师-学生配对
代码开源 GitHub - thunlp/OPD: Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe · GitHub

论文结构总览

  • 第1节:引言 – OPD背景、失败模式、本文贡献

  • 第2节:预备知识 – OPD三种形式、动态监控指标

  • 第3节:现象学 – 两个条件(思维模式一致、新知识)

  • 第4节:机制 – 渐进对齐、重叠令牌充分性

  • 第5节:配方 – 离策略冷启动、教师对齐提示

  • 第6节:讨论 – 长度限制、奖励几何、支持集大小

  • 第7节:相关工作

  • 第8节:结论与未来工作

  • 附录:GRPO训练细节、超参数表、附加实验


详细解读

第1节:引言

1.1 OPD的兴起

  • 例子:Qwen3、MiMo、GLM-5 都在后训练中采用OPD。

  • Thinking Machines Lab 用OPD复现了Qwen3的效果,成本仅为RL的一小部分。

1.2 OPD vs 离策略蒸馏

  • 离策略蒸馏:学生固定学习教师生成的序列 → 暴露偏差(训练和推理时的输入分布不同)。

  • OPD:学生自己生成轨迹,利用教师逐token log概率作为稠密奖励 → 缓解暴露偏差。

1.3 失败模式示例(图1)

  • JustRL-1.5B:对DeepSeek-Distill-1.5B(DS1.5B)做RL得到,再用它作为教师蒸馏回DS1.5B → 成功。

  • Skywork-OR1-Math-7B:对DS-7B做RL得到,再用它作为教师蒸馏DS-7B → 成功。

  • 反例:直接用更大的同族教师(如R1-Distill-7B)蒸馏1.5B学生 → 失败。

1.4 本文贡献(三点)

  1. 现象学:识别两个条件。

  2. 机制:发现重叠令牌是OPD的主要学习信号。

  3. 配方:提供两种修复策略 + 揭示OPD的代价(长轨迹退化)。


第2节:预备知识

2.1 符号

  • 学生:πθπθ​,教师:πTπT​(冻结)。

  • 提示 x∼Dxx∼Dx​,学生生成 y^=(y^1,...,y^T)y^​=(y^​1​,...,y^​T​)。

  • 逐token分布:学生 pt(⋅)=πθ(⋅∣x,y^<t)pt​(⋅)=πθ​(⋅∣x,y^​<t​),教师 qt(⋅)=πT(⋅∣x,y^<t)qt​(⋅)=πT​(⋅∣x,y^​<t​)。

2.2 OPD的三种形式

(1) 采样令牌OPD
  • 损失:ℓtsample=log⁡pt(y^t)−log⁡qt(y^t)ℓtsample​=logpt​(y^​t​)−logqt​(y^​t​)

  • 期望:Ey^t∼pt[ℓtsample]=DKL(pt∥qt)Ey^​t​∼pt​​[ℓtsample​]=DKL​(pt​∥qt​)

  • 优点:无偏单样本估计,计算轻量。

  • 缺点:方差可能大。

(2) 全词汇OPD
  • 损失:∑tDKL(pt∥qt)∑t​DKL​(pt​∥qt​)

  • 内存:O(BTM)O(BTM),MM 为词汇表大小(通常~128k),不可行。

(3) Top-K OPD(本文主要采用)
  • 选择学生Top-K令牌集 St=TopK(pt,k)St​=TopK(pt​,k)。

  • 在 StSt​ 上重新归一化学生和教师分布:

    pˉt(St)(ν)=pt(ν)1[ν∈St]∑u∈Stpt(u),qˉt(St)(ν)=qt(ν)1[ν∈St]∑u∈Stqt(u)pˉ​t(St​)​(ν)=∑u∈St​​pt​(u)pt​(ν)1[ν∈St​]​,qˉ​t(St​)​(ν)=∑u∈St​​qt​(u)qt​(ν)1[ν∈St​]​
  • 损失:∑tDKL(pˉt(St)∥qˉt(St))∑t​DKL​(pˉ​t(St​)​∥qˉ​t(St​)​)。

  • 优点:保留多令牌监督,计算成本可控(O(BTk)O(BTk))。

2.3 动态监控指标(后续实验使用)

  1. 重叠率:∣St(p)∩St(q)∣kk∣St(p)​∩St(q)​∣​,平均。

    • 衡量高概率令牌集的重叠程度。

  2. 重叠令牌优势

    At(ν)=pˉt(ν)(log⁡qˉt(ν)−log⁡pˉt(ν))At​(ν)=pˉ​t​(ν)(logqˉ​t​(ν)−logpˉ​t​(ν))

    在重叠集上平均。接近0表示学生与教师在该区域的置信度匹配。

  3. 熵与熵差距

    H(pt)=−∑pt(ν)log⁡pt(ν),ΔHt=∣H(qt)−H(pt)∣H(pt​)=−∑pt​(ν)logpt​(ν),ΔHt​=∣H(qt​)−H(pt​)∣

第3节:现象学

3.1 条件1:思维模式一致性

实验设置(图2,3)
  • 学生:Qwen3-1.7B-Base

  • 教师A:Qwen3-4B (Non-thinking) – 普通指令模型

  • 教师B:Qwen3-4B-Base-GRPO – 在DAPO-Math-17K上用GRPO训练1 epoch(超参见附录表1)

    • GRPO参数:rollout n=8,max response length=7168,lr=1e-6,temperature=1.0,无KL正则

  • 数据集:DAPO-Math-17K(约1.7万数学问题)

  • 评估基准:AIME 2024, AIME 2025, AMC 2023

  • 评估协议:每个问题采样16个答案(temperature=0.7, top-p=0.95),报告avg@16

  • OPD超参:默认表2(temperature=1.0,batch size=64,rollout number=4,max response length=7168,Top-K=16,学生Top-K策略)

结果(图2)
  • 教师B(GRPO):虽然基准分数略低于教师A(图3),但OPD后学生性能显著高于用教师A蒸馏的学生。

  • 重叠率动态:教师B初始重叠率(约0.65)高于教师A(约0.55),尽管后期趋同,但性能差距持续存在。

  • 逐基准拆分(附录A.3,图17):优势在AMC 2023和AIME 2024上更明显,AIME 2025上较小但趋势一致。

结论
  • 思维模式一致性(反映在初始重叠率)比教师的绝对分数更重要。

  • 早期不匹配的损失无法通过后续训练完全恢复。

3.2 条件2:教师必须提供新知识

实验设置(图4)

在两个模型家族中进行:

家族1:DeepSeek

  • 学生:DeepSeek-R1-Distill-Qwen-1.5B (R1-Distill-1.5B)

  • 教师A(同管道):DeepSeek-R1-Distill-Qwen-7B (R1-Distill-7B) – 更大但训练数据相同

  • 教师B(有额外RL):Skywork-OR1-Math-7B – 从R1-Distill-7B继续用RL训练得到

家族2:Qwen

  • 学生:Qwen3-1.7B (Non-thinking)

  • 教师A(同管道):Qwen3-4B (Non-thinking)

  • 教师B(有额外RL):Qwen3-4B-Non-Thinking-RL-Math – 在DeepMath的57k子集上做RL

结果
  • 同管道教师(即使更大)→ 学生提升很小(gap recovery rate低)

  • 有额外RL的教师 → 大幅提升,gap recovery rate高(图4右图)

  • 例如:DeepSeek家族,同管道教师恢复率约0.2,额外RL教师恢复率约0.8

解释
  • 同管道教师与学生见过完全相同的训练数据分布,没有引入新行为模式。

  • 额外RL使教师学到了学生未知的推理步骤或解题策略,这些可以通过OPD传递。

3.3 反向蒸馏(图5)

设计
  • 学生:JustRL-1.5B(由R1-Distill-1.5B通过RL得到,性能更强)

  • 教师1:R1-Distill-1.5B(学生的前身,性能弱)

  • 教师2:R1-Distill-7B(同族更大模型,性能略高于JustRL-1.5B)

惊人结果
  • 两个教师都导致学生严重回退到≈R1-Distill-1.5B的水平。

  • 尽管教师2绝对分数更高,但蒸馏后的学生性能与使用教师1几乎相同。

深刻含义
  1. OPD本质上是在学习教师的思维模式,而不是简单提升分数。学生被迫覆盖教师的高概率区域,从而覆盖掉自己通过RL获得的新模式。

  2. 同族不同规模的模型,在学生访问的状态上诱导出几乎相同的局部分布。这意味着R1-Distill-7B虽然整体更强,但在学生生成的前缀上,其概率分布与1.5B版本非常接近。

  3. 基准分数与OPD训练动态完全解耦。高分数不代表对学生有可迁移的新知识。


第4节:机制

4.1 成功OPD = 渐进对齐高概率令牌(图6)

对比设置
  • 固定学生:R1-Distill-1.5B

  • 成功教师:JustRL-1.5B(从同一学生RL得到)

  • 失败教师:R1-Distill-7B(同族更大,无新知识)

动态指标(图6底行)
指标 成功 (JustRL) 失败 (R1-Distill-7B)
重叠率 从72% → 91% 稳定在约70%
重叠令牌优势 从负值趋近0 始终为负且不改善
熵差距 从较大缩小到接近0 保持较大
辅助指标(附录B.2,图19)
  • PG Loss:成功run从较高初始值持续下降;失败run初始就很低且变化小 → 失败run的教师信号弱,不是“已经很好”。

  • 梯度范数:成功run梯度大且持续;失败run梯度一直很小。

  • 极端令牌概率差(最大advantage的token):成功run逐渐缩小;失败run保持较大差距。

重叠质量(附录B.1,图18)
  • 在成功run中,重叠令牌集覆盖的学生和教师概率质量始终在97%-99%之间。

  • 因此“重叠率”不是空集重叠,而是支配性概率质量的重叠。

4.2 仅优化重叠令牌就足够(图7)

实验设计
  • 使用成功配对(JustRL-1.5B → R1-Distill-1.5B)

  • 比较三种Top-K优化支持集:

    1. Student Top-K:St(p)St(p)​(基准)

    2. Overlap Top-K:St(p)∩St(q)St(p)​∩St(q)​(交集)

    3. Non-Overlap Top-K:St(p)ΔSt(q)St(p)​ΔSt(q)​(对称差)

  • k=16(默认)

结果
  • Overlap Top-K 性能 ≈ Student Top-K(在三个基准上几乎重合)

  • Non-Overlap Top-K 性能显著差很多

  • 重叠率动态(图7左下):

    • Student Top-K 和 Overlap Top-K 都使重叠率从72% → 91%

    • Non-Overlap Top-K 重叠率先下降后仅部分恢复

机制解释
  • 自我强化循环:当一个共享令牌被教师青睐,学生通过reverse KL更新将更多概率质量集中到它上,逐渐将非重叠令牌挤出Top-K集。

  • 因此OPD的主要学习信号完全来自重叠的高概率令牌,非重叠令牌几乎不贡献有效梯度。


第5节:实践配方

5.1 离策略冷启动(图8)

背景
  • 学生:Qwen3-1.7B-Base

  • 教师:Qwen3-4B (Non-thinking) —— 原始配对的初始重叠率低,OPD效果差

冷启动步骤
  1. 教师生成离线响应

    • 从OpenThoughts3-1.2M中采样200K数学提示

    • 教师生成响应(temperature=0.7, top-p=0.95, max length=12288)

    • 过滤不完整或重复的响应

  2. 学生SFT

    • 在200K(提示,教师响应)对上全参数微调

    • 超参:附录表3(lr=1e-5,cosine scheduler,epoch=1,sequence length=14336)

    • 得到 Qwen3-1.7B-SFT

  3. OPD:从SFT初始化继续OPD(使用剩余约30K prompts,去重后)

结果
  • SFT+OPD 显著优于 纯OPD(图8)

  • 重叠率(图8右下):SFT初始重叠率已很高(≈0.75),而base初始≈0.55,且SFT训练更稳定

  • 重叠质量(附录C.2,图21):SFT初始化的学生保持很高的overlap mass(>0.95),而base初始波动大且较低

结论
  • 离策略冷启动通过缩小初始思维模式差距,使后续OPD的教师信号立即可用。

5.2 教师对齐的提示选择

(a) 提示模板对齐(图9)

设置

  • 教师:JustRL-1.5B

  • 学生:R1-Distill-1.5B

  • 同一组数学问题(DAPO-Math-17K),仅模板不同

    • 原始DAPO模板:Solve the following math problem step by step. The last line... Answer: $Answer

    • 教师对齐模板:{Question} Please reason step by step, and put your final answer within \boxed{}

结果

  • 教师对齐模板 → 三个基准上准确率均更高(图9左)

  • 重叠率更高且增长更稳定(图9右)

  • 逐基准拆分(附录C.4,图22):AIME上提升更明显,AMC上较小但正向

(b) 提示内容对齐(图10)

设置

  • 教师:Qwen3-4B-Base-GRPO

  • 学生:Qwen3-1.7B-Base

  • 比较两种prompt集(大小匹配):

    1. DAPO-Math-17K(与教师RL训练数据有重叠)

    2. DeepMath子集:从DeepMath中去除与DAPO精确匹配和语义相似(余弦相似度≥0.6)的问题(附录C.3)

结果

  • 教师对齐内容(DAPO)→ 性能更高(图10左)

  • 重叠率反而更低(图10中)→ 为什么?因为重叠集虽小,但质量更高:学生在该集上的概率质量更高(即更集中)。

  • 问题:教师对齐内容导致学生熵显著降低(图10右)→ 过度自信,可能降低探索能力。

建议:混合使用教师对齐提示和分布外提示,以保持熵。


第6节:讨论

6.1 奖励质量随轨迹深度退化(图11-13)

实验A:不同最大响应长度(图11a, 图12)
  • 训练R1-Distill-1.5B ← JustRL-1.5B,200步

  • 最大响应长度:0.5K, 1K, 3K, 7K, 10K, 15K tokens

  • 结果

    • 太短(0.5K,1K):监督token太少,学习效率低

    • 中等(3K,7K):最佳性能

    • 太长(10K,15K):性能下降或平台,且出现后期崩溃(图12:重叠率在约150步后骤降,伴随熵和梯度范数尖峰)

  • 诊断(图13, 附录D.1):

    • 在15K设置下,分析学生熵随输出位置的变化:高熵首先出现在响应末尾,然后逐渐向前传播。

    • 教师熵也有相同模式(附录D.1图23)→ 教师对长前缀不熟悉,产生噪声奖励,进而破坏学生。

实验B:教师续写能力随前缀深度下降(图11b)
  • 从学生生成长响应(>16K)中采样2K个

  • 在不同位置截断,让教师续写,比较教师 vs 学生原始续写的准确率

  • 结果

    • 前缀1K:教师准确率领先+0.37

    • 前缀4K:+0.23

    • 前缀8K:+0.11

    • 前缀12K:+0.04

    • 前缀16K:+0.02(几乎无优势)

结论:OPD存在一个最佳响应长度窗口(约3-7K),过短信号不足,过长奖励退化。

6.2 全局有用 ≠ 局部可优化(图14)

实验
  • 使用第4.1节的对比(成功教师JustRL-1.5B vs 失败教师R1-Distill-7B)

  • 对每个学生生成的完整响应,计算序列平均奖励

    rˉ(y)=1T∑t=1T[log⁡qt(y^t)−log⁡pt(y^t)]rˉ(y)=T1​t=1∑T​[logqt​(y^​t​)−logpt​(y^​t​)]
  • 将响应分为正确和错误两组,比较 rˉrˉ 的分布

结果(图14)
  • 两个教师的 rˉrˉ 分布都能清晰区分正确/错误响应,AUROC分别为0.73和0.75 → 全局信号都有用

  • 但OPD只有JustRL成功 → 说明失败不在于全局信息不足。

假设:奖励几何的各向异性
  • 失败教师的逐token advantage虽然幅度大,但在序列内方向不一致,导致梯度相互抵消。

  • 成功教师的advantage更相干,产生更大的有效梯度。

  • (作者未直接验证,留作未来工作)

6.3 采样令牌奖励已足够(图15-16)

实验
  • 学生:R1-Distill-1.5B,教师:JustRL-1.5B

  • 比较:采样令牌 OPD vs Top-{1,4,16,64} OPD

结果
  • Top-1:表现最差,不稳定,重叠率有尖峰,梯度范数尖峰(图16)

  • 采样令牌、Top-4、Top-16、Top-64 性能相近(图15)

  • 原因:

    • 采样令牌是无偏估计,且随着训练,采样的token逐渐集中在高概率区域。

    • Top-1是有偏的、模式集中的选择,小改变可能导致argmax翻转,信号不稳定。


第7-8节:相关工作和结论

相关工作亮点

  • 蒸馏中的容量差距:前人发现过大教师会损害蒸馏,本文指出思维模式匹配更重要。

  • 自蒸馏:近期工作扩展,本文的条件(新知识)在自蒸馏中对应于特权信息(如gt答案)。

未来工作

  1. 领域泛化:当前仅在数学上验证,需扩展到代码、开放域。

  2. 预训练数据影响:难以分离,需要更精细控制。

  3. 自蒸馏动力学:当学生=教师时,条件如何变化?

  4. 长时序/智能体:混合密集token奖励 + 稀疏结果奖励,或课程学习。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐