3.1 知识蒸馏（Knowledge Distillation, KD）简介

qq_68188306

253人浏览 · 2026-03-17 11:52:23

qq_68188306 · 2026-03-17 11:52:23 发布

1 知识蒸馏（Knowledge Distillation, KD）简介

知识蒸馏（KD）是一类“教师—学生”（Teacher–Student）范式的模型训练技术：用一个性能更强、结构更大、表达能力更充足的教师模型，将其“知识”迁移到一个更小、更快、更省资源的学生模型中，使学生在较低推理成本下获得接近教师的效果。

在工程与研究中，KD 常用于：

模型压缩：把大模型的能力迁移到小模型，以满足端侧、低延迟或低成本部署需求。
性能增强：在相同参数量下，通过学习教师的“软目标/中间表征/样本关系”，提升学生的泛化性能。
迁移与对齐：让学生继承教师在特定任务、特定风格或特定能力（如推理、指令跟随）上的行为模式。

1）KD 的两种基本形态：白盒与黑盒

1.1 白盒知识蒸馏（White-box KD）

白盒 KD 通常假设你能直接访问教师模型的内部信息，至少包括：

教师的输出分布（logits 或 soft labels）
教师的中间层特征表示
教师对样本之间关系的隐式结构（如相似性、距离、相关矩阵）

常见场景：教师来自开源模型或可控训练体系，你能够在推理时拿到 logits / hidden states / attention 等。

1.2 黑盒知识蒸馏（Black-box KD）

黑盒 KD 通常只能访问教师模型的最终输出（文本、类别、打分），拿不到 logits 或中间层表示。典型场景是闭源大语言模型（LLM）作为教师，你能做的通常是：

设计 prompt，调用教师生成输出
收集教师输出构成“蒸馏数据集”
用该数据集去微调学生模型

对于大语言模型，黑盒蒸馏往往不仅仅是“学知识点”，还包括蒸馏教师展现出的涌现能力（Emergent Abilities），例如上下文学习（ICL）、链式思维（CoT）、指令跟随（Instruction Following）。

2）知识蒸馏由三部分组成

一个 KD 系统可以拆为三个核心要素：

知识（Knowledge）：要从教师迁移什么信息？
蒸馏算法（Distillation Algorithm）：用什么损失与训练策略把知识“写进”学生？
师生架构（Teacher–Student Architecture）：教师与学生的模型结构、交互方式、是否同步更新等。

下面依次展开。

3）知识（Knowledge）：三类经典“蒸馏知识”

白盒 KD 中，最常见的“知识类型”有三类：Response-based / Feature-based / Relation-based。

3.1 Response-based（基于输出响应的知识）

核心思想：让学生学习教师对输出类别/token 的概率分布（软目标），而不是只学习硬标签。

为什么“软目标”更有信息量？

硬标签只告诉你“正确答案是哪一个”。但教师的输出分布会告诉你：

哪些答案也“接近正确”
哪些错误更像“合理的混淆项”
类别之间的相对相似性（暗含“类结构”）

这类信息常被称为 dark knowledge。

典型形式：KL 散度蒸馏（分类场景）

设教师输出分布为 $p_T(y|x)$ ，学生输出分布为 $p_S(y|x)$ ，常用蒸馏损失之一是：
$\mathcal{L}_{KD} = D_{KL}\big(p_T(\cdot|x)\ \|\ p_S(\cdot|x)\big) = \sum_{y} p_T(y|x)\log \frac{p_T(y|x)}{p_S(y|x)}$

为了让分布更“软”，通常引入温度系数 $T$ （temperature）：

教师 logits 为 $z_T$
学生 logits 为 $z_S$
softmax 温度化分布为：
$p_T(y|x)=\frac{\exp(z_T(y)/T)}{\sum_{y'}\exp(z_T(y')/T)},\quad p_S(y|x)=\frac{\exp(z_S(y)/T)}{\sum_{y'}\exp(z_S(y')/T)}$

温度 $T$ 越大，分布越平滑，能暴露更多“次优类别”的概率，从而提供更丰富的学习信号。

实际案例（直观解释）

以图像分类为例：输入是一张哈士奇照片。

硬标签只说：类别=“husky”
教师分布可能是：husky 0.72、malamute 0.18、wolf 0.08、others 0.02
学生学习这个分布，会自然学到“husky 与 malamute 更接近，而不是与 car 接近”。

对于语言模型，Response-based 也对应“让学生学习教师对下一个 token 的概率分布”，使学生更像教师的生成行为，而不是只学一条参考答案。

3.2 Feature-based（基于中间特征的知识）

核心思想：不仅学教师的最终输出，还让学生模仿教师在网络中间层学到的表示（hidden states / feature maps）。

深度网络往往在不同层学习不同层次特征：

低层：局部模式、形状、词法线索
中层：组合结构、语义片段
高层：任务相关的抽象语义

因此，模仿中间层可以为学生提供“更密集、更结构化”的训练约束。

典型形式：特征匹配损失

设教师某层特征为 $h_T^{(l)}(x)$ ，学生某层特征为 $h_S^{(m)}(x)$ 。常见做法是最小化二者距离：
$\mathcal{L}_{feat}=\left\| \phi\big(h_S^{(m)}(x)\big)-h_T^{(l)}(x)\right\|_2^2$
其中 $ϕ(⋅)\phi(\cdot)$ 常用于对齐维度（因为师生结构可能不同，特征维度不一定一致）。

难点：提示层与引导层（Hint/Guide）怎么选？

Feature-based 的关键难点在于：

教师哪一层的表征最适合作为“提示层”（hint layer）？
学生哪一层用来对齐（guide layer）？
若二者维度不同，如何映射对齐？

这些选择会显著影响蒸馏效果。一般经验包括：

若师生结构相似：对应层对齐通常有效
若结构差异较大：需要选择“语义层级相近”的层，或在多个层上联合约束

实际案例（直观解释）

在目标检测中，教师是大 backbone + FPN，学生是轻量 backbone。

Response-based 只约束最终框与类别输出
Feature-based 还能让学生学教师 FPN 中多尺度特征的“组织方式”，使学生更快学到稳定的多尺度表示，从而显著提升小模型性能。

3.3 Relation-based（基于关系的知识）

核心思想：蒸馏的不只是“单个样本的输出/特征”，还包括：

特征内部（如通道或空间位置之间）的关系结构
样本之间在表示空间中的相对关系

也就是把“结构信息”作为知识迁移。

形式 A：层内关系（Gram 矩阵等）

设某层特征（展平后）为矩阵 $\in \mathbb{R}^{d \times n}$ （ $n$ 可以理解为位置数或 token 数），可构造 Gram 矩阵表示相关性：
$F^\top F \in \mathbb{R}^{n \times n}$
Relation-based 蒸馏可以让学生匹配教师的关系矩阵：
$\mathcal{L}_{rel}=\left\|G_S-G_T\right\|_F^2$
这里 $∥⋅∥F\|\cdot\|_F$ 是 Frobenius 范数。

形式 B：样本间关系（pairwise similarity / distance）

给定一个 batch 的样本表示 ${h(x_i)\}_{i=1}^N$ ，可以计算教师的相似度矩阵：
$R_T(i,j)=\text{sim}\big(h_T(x_i),h_T(x_j)\big)$
学生同样得到 $R_S(i,j)$ ，并让二者对齐：
$\mathcal{L}_{pair}=\sum_{i,j}\left(R_S(i,j)-R_T(i,j)\right)^2$

实际案例（直观解释）

在度量学习/检索任务中，教师已学到“哪些样本互为近邻、哪些属于同一簇”。

Response-based：只能教你某个样本应该属于哪个类
Relation-based：直接把“整体几何结构”迁移给学生
这对小模型的检索质量尤其关键，因为检索的本质就是保持表示空间结构。

4）蒸馏算法（Distillation Algorithm）：三种训练范式

从训练组织方式看，KD 常分为：Offline / Online / Self-distillation。

4.1 Offline Distillation（离线蒸馏）

这是最主流、最常见的范式，通常分两步：

1）先训练（或获得）一个强教师模型
2）固定教师参数，用教师提供的知识训练学生

离线蒸馏的优势：

教师稳定，训练过程更容易调参、更可控
适用于“教师很强但训练很贵”的情况：一次训练教师，多次蒸馏不同学生

实际案例：TinyBERT（概念层面）

以 BERT 系列为例，常见做法是先有一个较大的 BERT 教师，然后通过 KD 得到 tinyBERT 或其他小模型，使小模型在速度与精度之间更平衡。

4.2 Online Distillation（在线蒸馏）

在线蒸馏中，教师和学生在训练过程中同时更新。常见动机是：

强教师不可得（没有一个固定、可用的预训练教师）
希望教师与学生共同进化，互相促进

在线蒸馏的难点：

教师本身也在变化，学生的学习目标会漂移
需要额外机制避免“两个弱模型互相误导”，否则易不稳定

4.3 Self-distillation（自蒸馏）

自蒸馏可看作在线蒸馏的特例：教师与学生是同一类网络（架构相同，甚至参数共享或相近）。

常见形式包括：

用同一模型在不同训练阶段/不同增强视角下产生“教师信号”
用模型的“历史版本”作为教师（类似 EMA teacher）
在多分支结构中，一支作为教师指导另一支

自蒸馏的一个核心价值在于：即便没有外部更强教师，也能通过训练策略与目标设计，让模型“自己教自己”，获得正则化和更好的泛化。

5）黑盒知识蒸馏：面向 LLM 的“能力蒸馏”

在大语言模型场景里，黑盒 KD 常常不是直接蒸馏 logits，而是让教师生成一个高质量数据集，用于训练学生。这类蒸馏常被描述为 Emergent Abilities-based KD：因为你蒸馏的是教师在大规模训练与对齐后呈现出的“能力形态”，尤其包括：

In-Context Learning（ICL，上下文学习）
Chain-of-Thought（CoT，链式推理）
Instruction Following（IF，指令跟随）

下面分别展开。

6）ICL 蒸馏：把“少样本上下文学习”迁移给学生

6.1 ICL 是什么？

ICL 指模型在推理时通过 prompt 中的任务描述 + 少量示例，在不更新参数的情况下完成新任务。prompt 通常呈现为结构化自然语言格式，例如：

任务说明：你要做什么
示例：给出若干输入—输出对
测试：给出新输入，模型输出对应答案

6.2 ICL 蒸馏的目标

ICL 蒸馏希望让学生在参数较小的情况下也具备：

读懂任务说明的能力
从示例中归纳规则的能力
在新输入上泛化输出的能力

一个常见思路是把 ICL prompt 当作输入，把教师输出当作监督信号。训练目标可以是标准语言建模负对数似然（NLL）：
$\mathcal{L}_{ICL}=-\sum_{t}\log p_S(y_t \mid x, y_{<t})$
其中训练数据中的 $y$ 来自教师在 ICL prompt 下的生成。