模型蒸馏,以及softmax-T

KonaKent · 2026-03-20 18:24:07 发布

在模型蒸馏中，蒸馏损失和学生损失是两个核心的损失函数组成部分。它们共同决定了学生模型的学习方向。

要理解它们，需要先明确蒸馏的基本设定：

教师模型：一个已经训练好的、参数量大、性能强但推理慢的模型。它的输出提供了丰富的“暗知识”（比如，分类猫时，它虽然预测“猫”的概率最高，但“老虎”的概率也比“汽车”高）。
学生模型：我们想要训练的小模型。它既要模仿教师的行为，也要学习真实的数据标签。

基于这个设定，蒸馏损失和学生损失的作用如下：

对象：学生模型的预测 ↔↔ 教师模型的预测（Soft Labels/Targets，即软目标）。
关键技巧：为了让教师模型输出更丰富的信息，通常会使用一个温度参数（T）软化概率分布。高温会让分布更平滑（类别间的差异变小，隐藏的关系暴露出来）。
计算公式：通常是KL散度或带温度的交叉熵损失。
目的：让学生模型模仿教师模型的泛化能力。通过匹配教师输出的概率分布，学生能学到类别间的相似性（比如，在教师看来，猫和老虎有点像，但猫和汽车一点都不像）。
通俗理解：这是蒸馏特有的损失。它告诉学生：“虽然答案是猫，但你要学老师的思维方式，知道猫在特征空间里离老虎近，离汽车远。”

在训练时，通常将这两个损失通过加权求和的方式结合起来，形成最终的损失函数：

L=α⋅Lsoft+(1−α)⋅LhardL=α⋅Lsoft+(1−α)⋅Lhard

其中：

假设任务是识别手写数字“2”。

教师模型输出：
- 数字2：90%
- 数字3：7%
- 数字7：2%
- 数字8：1%
  （因为2和3、7在笔画上确实有点像，教师捕捉到了这种相似性）
真实标签（One-hot）：
- 数字2：100%
- 其他：0%

结果：
如果只用学生损失，学生只会学会把2识别成2，面对一个写得很潦草的、有点像3的2时，可能就会犯错。
如果只用蒸馏损失，学生可能会模仿得很好，但万一老师犯错了（比如老师把2误判成3的概率很高），学生也会跟着错。

总结：

怎么理解模型蒸馏中的softmax-t公式

理解 Softmax-T（带温度参数 TT 的 Softmax）是理解模型蒸馏核心机制的关键。这个小小的 TT 实际上是信息放大镜和知识载体。

我们可以通过对比原始 Softmax 和带温度的 Softmax 来理解它的作用和必要性。

在常规的分类任务中，Softmax 的作用是将模型输出的“分数”（logits，即逻辑值）转换成概率分布。

pi=ezi∑jezjpi=∑jezjezi

为了让教师模型不仅仅告诉学生答案，还要告诉学生思考过程（即它对哪些相似类别感到犹豫），我们引入了温度 TT。

公式变为：

pi=ezi/T∑jezj/Tpi=∑jezj/Tezi/T

其中 TT 就是温度参数。

就是标准的 Softmax。

指数运算内部除以了一个大于 1 的数，这会软化概率分布。

作用：抹平了分数差异带来的指数级差距。
结果：
- 原来 P(3) 只有 0.05%，现在可能上升到 15%。
- 原来 P(7) 几乎为 0%，现在可能上升到 5%。
- 原来 P(2) 从 99.9% 下降到 80%。
意义：现在我们得到的是一个软目标（Soft Target）。这个分布清晰地揭示了教师的内在知识：“2 有点像 3，一点点像 7，但完全不像 8。”