Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

just do it now

313人浏览 · 2026-06-01 14:01:06

just do it now · 2026-06-01 14:01:06 发布

论文全景速览

项目	内容
标题	Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
核心问题	同策略蒸馏（OPD）在什么条件下成功/失败？其令牌级机制是什么？如何修复失败？
主要发现	① 思维模式一致性 + 教师提供新知识是必要条件；② 成功OPD表现为高概率重叠令牌的渐进对齐；③ 仅优化重叠令牌即可；④ 长轨迹下奖励退化；⑤ 单令牌采样已足够
实验规模	多系列模型（Qwen、DeepSeek、Skywork）、多个数学基准（AIME 2024/2025、AMC 2023）、多种教师-学生配对
代码开源	GitHub - thunlp/OPD: Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe · GitHub

论文结构总览

第1节：引言 – OPD背景、失败模式、本文贡献
第2节：预备知识 – OPD三种形式、动态监控指标
第3节：现象学 – 两个条件（思维模式一致、新知识）
第4节：机制 – 渐进对齐、重叠令牌充分性
第5节：配方 – 离策略冷启动、教师对齐提示
第6节：讨论 – 长度限制、奖励几何、支持集大小
第7节：相关工作
第8节：结论与未来工作
附录：GRPO训练细节、超参数表、附加实验

详细解读

第1节：引言

1.1 OPD的兴起

例子：Qwen3、MiMo、GLM-5 都在后训练中采用OPD。
Thinking Machines Lab 用OPD复现了Qwen3的效果，成本仅为RL的一小部分。

1.2 OPD vs 离策略蒸馏

离策略蒸馏：学生固定学习教师生成的序列 → 暴露偏差（训练和推理时的输入分布不同）。
OPD：学生自己生成轨迹，利用教师逐token log概率作为稠密奖励 → 缓解暴露偏差。

1.3 失败模式示例（图1）

JustRL-1.5B：对DeepSeek-Distill-1.5B（DS1.5B）做RL得到，再用它作为教师蒸馏回DS1.5B → 成功。
Skywork-OR1-Math-7B：对DS-7B做RL得到，再用它作为教师蒸馏DS-7B → 成功。
反例：直接用更大的同族教师（如R1-Distill-7B）蒸馏1.5B学生 → 失败。

1.4 本文贡献（三点）

现象学：识别两个条件。
机制：发现重叠令牌是OPD的主要学习信号。
配方：提供两种修复策略 + 揭示OPD的代价（长轨迹退化）。

第2节：预备知识

2.1 符号

学生：πθπθ，教师：πTπT（冻结）。
提示 x∼Dxx∼Dx，学生生成 y^=(y^1,...,y^T)y^=(y^1,...,y^T)。
逐token分布：学生 pt(⋅)=πθ(⋅∣x,y^<t)pt(⋅)=πθ(⋅∣x,y^<t)，教师 qt(⋅)=πT(⋅∣x,y^<t)qt(⋅)=πT(⋅∣x,y^<t)。

2.2 OPD的三种形式

(1) 采样令牌OPD

损失：ℓtsample=log⁡pt(y^t)−log⁡qt(y^t)ℓtsample=logpt(y^t)−logqt(y^t)
期望：Ey^t∼pt[ℓtsample]=DKL(pt∥qt)Ey^t∼pt[ℓtsample]=DKL(pt∥qt)
优点：无偏单样本估计，计算轻量。
缺点：方差可能大。

(2) 全词汇OPD

损失：∑tDKL(pt∥qt)∑tDKL(pt∥qt)
内存：O(BTM)O(BTM)，MM 为词汇表大小（通常~128k），不可行。

(3) Top-K OPD（本文主要采用）

选择学生Top-K令牌集 St=TopK(pt,k)St=TopK(pt,k)。
在 StSt 上重新归一化学生和教师分布：
pˉt(St)(ν)=pt(ν)1[ν∈St]∑u∈Stpt(u),qˉt(St)(ν)=qt(ν)1[ν∈St]∑u∈Stqt(u)pˉt(St)(ν)=∑u∈Stpt(u)pt(ν)1[ν∈St],qˉt(St)(ν)=∑u∈Stqt(u)qt(ν)1[ν∈St]
损失：∑tDKL(pˉt(St)∥qˉt(St))∑tDKL(pˉt(St)∥qˉt(St))。
优点：保留多令牌监督，计算成本可控（O(BTk)O(BTk)）。

2.3 动态监控指标（后续实验使用）

重叠率：∣St(p)∩St(q)∣kk∣St(p)∩St(q)∣，平均。
- 衡量高概率令牌集的重叠程度。
重叠令牌优势：
At(ν)=pˉt(ν)(log⁡qˉt(ν)−log⁡pˉt(ν))At(ν)=pˉt(ν)(logqˉt(ν)−logpˉt(ν))
在重叠集上平均。接近0表示学生与教师在该区域的置信度匹配。
熵与熵差距：
H(pt)=−∑pt(ν)log⁡pt(ν),ΔHt=∣H(qt)−H(pt)∣H(pt)=−∑pt(ν)logpt(ν),ΔHt=∣H(qt)−H(pt)∣

第3节：现象学

3.1 条件1：思维模式一致性

实验设置（图2,3）

学生：Qwen3-1.7B-Base
教师A：Qwen3-4B (Non-thinking) – 普通指令模型
教师B：Qwen3-4B-Base-GRPO – 在DAPO-Math-17K上用GRPO训练1 epoch（超参见附录表1）
- GRPO参数：rollout n=8，max response length=7168，lr=1e-6，temperature=1.0，无KL正则
数据集：DAPO-Math-17K（约1.7万数学问题）
评估基准：AIME 2024, AIME 2025, AMC 2023
评估协议：每个问题采样16个答案（temperature=0.7, top-p=0.95），报告avg@16
OPD超参：默认表2（temperature=1.0，batch size=64，rollout number=4，max response length=7168，Top-K=16，学生Top-K策略）

结果（图2）

教师B（GRPO）：虽然基准分数略低于教师A（图3），但OPD后学生性能显著高于用教师A蒸馏的学生。
重叠率动态：教师B初始重叠率（约0.65）高于教师A（约0.55），尽管后期趋同，但性能差距持续存在。
逐基准拆分（附录A.3，图17）：优势在AMC 2023和AIME 2024上更明显，AIME 2025上较小但趋势一致。

结论

思维模式一致性（反映在初始重叠率）比教师的绝对分数更重要。
早期不匹配的损失无法通过后续训练完全恢复。

3.2 条件2：教师必须提供新知识

实验设置（图4）

在两个模型家族中进行：

家族1：DeepSeek

学生：DeepSeek-R1-Distill-Qwen-1.5B (R1-Distill-1.5B)
教师A（同管道）：DeepSeek-R1-Distill-Qwen-7B (R1-Distill-7B) – 更大但训练数据相同
教师B（有额外RL）：Skywork-OR1-Math-7B – 从R1-Distill-7B继续用RL训练得到

家族2：Qwen

学生：Qwen3-1.7B (Non-thinking)
教师A（同管道）：Qwen3-4B (Non-thinking)
教师B（有额外RL）：Qwen3-4B-Non-Thinking-RL-Math – 在DeepMath的57k子集上做RL

结果

同管道教师（即使更大）→ 学生提升很小（gap recovery rate低）
有额外RL的教师 → 大幅提升，gap recovery rate高（图4右图）
例如：DeepSeek家族，同管道教师恢复率约0.2，额外RL教师恢复率约0.8

解释

同管道教师与学生见过完全相同的训练数据分布，没有引入新行为模式。
额外RL使教师学到了学生未知的推理步骤或解题策略，这些可以通过OPD传递。

3.3 反向蒸馏（图5）

设计

学生：JustRL-1.5B（由R1-Distill-1.5B通过RL得到，性能更强）
教师1：R1-Distill-1.5B（学生的前身，性能弱）
教师2：R1-Distill-7B（同族更大模型，性能略高于JustRL-1.5B）

惊人结果

两个教师都导致学生严重回退到≈R1-Distill-1.5B的水平。
尽管教师2绝对分数更高，但蒸馏后的学生性能与使用教师1几乎相同。

深刻含义

OPD本质上是在学习教师的思维模式，而不是简单提升分数。学生被迫覆盖教师的高概率区域，从而覆盖掉自己通过RL获得的新模式。
同族不同规模的模型，在学生访问的状态上诱导出几乎相同的局部分布。这意味着R1-Distill-7B虽然整体更强，但在学生生成的前缀上，其概率分布与1.5B版本非常接近。
基准分数与OPD训练动态完全解耦。高分数不代表对学生有可迁移的新知识。

第4节：机制

4.1 成功OPD = 渐进对齐高概率令牌（图6）

对比设置

固定学生：R1-Distill-1.5B
成功教师：JustRL-1.5B（从同一学生RL得到）
失败教师：R1-Distill-7B（同族更大，无新知识）

动态指标（图6底行）

指标	成功 (JustRL)	失败 (R1-Distill-7B)
重叠率	从72% → 91%	稳定在约70%
重叠令牌优势	从负值趋近0	始终为负且不改善
熵差距	从较大缩小到接近0	保持较大

辅助指标（附录B.2，图19）

PG Loss：成功run从较高初始值持续下降；失败run初始就很低且变化小 → 失败run的教师信号弱，不是“已经很好”。
梯度范数：成功run梯度大且持续；失败run梯度一直很小。
极端令牌概率差（最大advantage的token）：成功run逐渐缩小；失败run保持较大差距。

重叠质量（附录B.1，图18）

在成功run中，重叠令牌集覆盖的学生和教师概率质量始终在97%-99%之间。
因此“重叠率”不是空集重叠，而是支配性概率质量的重叠。

4.2 仅优化重叠令牌就足够（图7）

实验设计

使用成功配对（JustRL-1.5B → R1-Distill-1.5B）
比较三种Top-K优化支持集：
1. Student Top-K：St(p)St(p)（基准）
2. Overlap Top-K：St(p)∩St(q)St(p)∩St(q)（交集）
3. Non-Overlap Top-K：St(p)ΔSt(q)St(p)ΔSt(q)（对称差）
k=16（默认）

结果

Overlap Top-K 性能 ≈ Student Top-K（在三个基准上几乎重合）
Non-Overlap Top-K 性能显著差很多
重叠率动态（图7左下）：
- Student Top-K 和 Overlap Top-K 都使重叠率从72% → 91%
- Non-Overlap Top-K 重叠率先下降后仅部分恢复

机制解释

自我强化循环：当一个共享令牌被教师青睐，学生通过reverse KL更新将更多概率质量集中到它上，逐渐将非重叠令牌挤出Top-K集。
因此OPD的主要学习信号完全来自重叠的高概率令牌，非重叠令牌几乎不贡献有效梯度。

第5节：实践配方

5.1 离策略冷启动（图8）

背景

学生：Qwen3-1.7B-Base
教师：Qwen3-4B (Non-thinking) —— 原始配对的初始重叠率低，OPD效果差

冷启动步骤

教师生成离线响应：
- 从OpenThoughts3-1.2M中采样200K数学提示
- 教师生成响应（temperature=0.7, top-p=0.95, max length=12288）
- 过滤不完整或重复的响应
学生SFT：
- 在200K（提示，教师响应）对上全参数微调
- 超参：附录表3（lr=1e-5，cosine scheduler，epoch=1，sequence length=14336）
- 得到 Qwen3-1.7B-SFT
OPD：从SFT初始化继续OPD（使用剩余约30K prompts，去重后）

结果

SFT+OPD 显著优于纯OPD（图8）
重叠率（图8右下）：SFT初始重叠率已很高（≈0.75），而base初始≈0.55，且SFT训练更稳定
重叠质量（附录C.2，图21）：SFT初始化的学生保持很高的overlap mass（>0.95），而base初始波动大且较低

结论

离策略冷启动通过缩小初始思维模式差距，使后续OPD的教师信号立即可用。

5.2 教师对齐的提示选择

(a) 提示模板对齐（图9）

设置：

教师：JustRL-1.5B
学生：R1-Distill-1.5B
同一组数学问题（DAPO-Math-17K），仅模板不同：
- 原始DAPO模板：Solve the following math problem step by step. The last line... Answer: $Answer
- 教师对齐模板：{Question} Please reason step by step, and put your final answer within \boxed{}

结果：

教师对齐模板 → 三个基准上准确率均更高（图9左）
重叠率更高且增长更稳定（图9右）
逐基准拆分（附录C.4，图22）：AIME上提升更明显，AMC上较小但正向

(b) 提示内容对齐（图10）

设置：

教师：Qwen3-4B-Base-GRPO
学生：Qwen3-1.7B-Base
比较两种prompt集（大小匹配）：
1. DAPO-Math-17K（与教师RL训练数据有重叠）
2. DeepMath子集：从DeepMath中去除与DAPO精确匹配和语义相似（余弦相似度≥0.6）的问题（附录C.3）

结果：

教师对齐内容（DAPO）→ 性能更高（图10左）
但重叠率反而更低（图10中）→ 为什么？因为重叠集虽小，但质量更高：学生在该集上的概率质量更高（即更集中）。
问题：教师对齐内容导致学生熵显著降低（图10右）→ 过度自信，可能降低探索能力。

建议：混合使用教师对齐提示和分布外提示，以保持熵。

第6节：讨论

6.1 奖励质量随轨迹深度退化（图11-13）

实验A：不同最大响应长度（图11a, 图12）

训练R1-Distill-1.5B ← JustRL-1.5B，200步
最大响应长度：0.5K, 1K, 3K, 7K, 10K, 15K tokens
结果：
- 太短（0.5K,1K）：监督token太少，学习效率低
- 中等（3K,7K）：最佳性能
- 太长（10K,15K）：性能下降或平台，且出现后期崩溃（图12：重叠率在约150步后骤降，伴随熵和梯度范数尖峰）
诊断（图13, 附录D.1）：
- 在15K设置下，分析学生熵随输出位置的变化：高熵首先出现在响应末尾，然后逐渐向前传播。
- 教师熵也有相同模式（附录D.1图23）→ 教师对长前缀不熟悉，产生噪声奖励，进而破坏学生。

实验B：教师续写能力随前缀深度下降（图11b）

从学生生成长响应（>16K）中采样2K个
在不同位置截断，让教师续写，比较教师 vs 学生原始续写的准确率
结果：
- 前缀1K：教师准确率领先+0.37
- 前缀4K：+0.23
- 前缀8K：+0.11
- 前缀12K：+0.04
- 前缀16K：+0.02（几乎无优势）

结论：OPD存在一个最佳响应长度窗口（约3-7K），过短信号不足，过长奖励退化。

6.2 全局有用 ≠ 局部可优化（图14）

实验

使用第4.1节的对比（成功教师JustRL-1.5B vs 失败教师R1-Distill-7B）
对每个学生生成的完整响应，计算序列平均奖励：
rˉ(y)=1T∑t=1T[log⁡qt(y^t)−log⁡pt(y^t)]rˉ(y)=T1t=1∑T[logqt(y^t)−logpt(y^t)]
将响应分为正确和错误两组，比较 rˉrˉ 的分布

结果（图14）

两个教师的 rˉrˉ 分布都能清晰区分正确/错误响应，AUROC分别为0.73和0.75 → 全局信号都有用。
但OPD只有JustRL成功 → 说明失败不在于全局信息不足。

假设：奖励几何的各向异性

失败教师的逐token advantage虽然幅度大，但在序列内方向不一致，导致梯度相互抵消。
成功教师的advantage更相干，产生更大的有效梯度。
（作者未直接验证，留作未来工作）

6.3 采样令牌奖励已足够（图15-16）

实验

学生：R1-Distill-1.5B，教师：JustRL-1.5B
比较：采样令牌 OPD vs Top-{1,4,16,64} OPD

结果

Top-1：表现最差，不稳定，重叠率有尖峰，梯度范数尖峰（图16）
采样令牌、Top-4、Top-16、Top-64 性能相近（图15）
原因：
- 采样令牌是无偏估计，且随着训练，采样的token逐渐集中在高概率区域。
- Top-1是有偏的、模式集中的选择，小改变可能导致argmax翻转，信号不稳定。

第7-8节：相关工作和结论

未来工作

领域泛化：当前仅在数学上验证，需扩展到代码、开放域。
预训练数据影响：难以分离，需要更精细控制。
自蒸馏动力学：当学生=教师时，条件如何变化？
长时序/智能体：混合密集token奖励 + 稀疏结果奖励，或课程学习。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Video Capture：一款 AI 驱动的视频二次创作神器

AtomGit开源社区

Agent时代，飞书云文档支持导出Markdown，一键保存为 .md 文件！

AtomGit开源社区

Claude Code 安装与配置指南：兼容国产模型，禁止自动更新

AtomGit开源社区

所有评论(0)

查看更多评论

just do it now

@yaohaishen

已为社区贡献2条内容

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

just do it now

论文全景速览

论文结构总览

详细解读

第1节：引言

1.1 OPD的兴起

1.2 OPD vs 离策略蒸馏

1.3 失败模式示例（图1）

1.4 本文贡献（三点）

第2节：预备知识

2.1 符号

2.2 OPD的三种形式

(1) 采样令牌OPD

(2) 全词汇OPD

(3) Top-K OPD（本文主要采用）

2.3 动态监控指标（后续实验使用）

第3节：现象学

3.1 条件1：思维模式一致性

实验设置（图2,3）

结果（图2）

结论

3.2 条件2：教师必须提供新知识

实验设置（图4）

结果

解释

3.3 反向蒸馏（图5）

设计

惊人结果

深刻含义

第4节：机制

4.1 成功OPD = 渐进对齐高概率令牌（图6）

对比设置

动态指标（图6底行）

辅助指标（附录B.2，图19）

重叠质量（附录B.1，图18）

4.2 仅优化重叠令牌就足够（图7）

实验设计

结果

机制解释

第5节：实践配方

5.1 离策略冷启动（图8）

背景

冷启动步骤

结果

结论

5.2 教师对齐的提示选择

(a) 提示模板对齐（图9）

(b) 提示内容对齐（图10）

第6节：讨论

6.1 奖励质量随轨迹深度退化（图11-13）

实验A：不同最大响应长度（图11a, 图12）

实验B：教师续写能力随前缀深度下降（图11b）

6.2 全局有用 ≠ 局部可优化（图14）

实验

结果（图14）

假设：奖励几何的各向异性

6.3 采样令牌奖励已足够（图15-16）

实验

结果

第7-8节：相关工作和结论

相关工作亮点

未来工作

所有评论(0)

温馨提示：您尚未绑定手机号

just do it now