模型蒸馏全攻略：小模型如何从大模型「偷师」

Jeff Met

397人浏览 · 2026-03-30 21:24:14

Jeff Met · 2026-03-30 21:24:14 发布

模型蒸馏全攻略：小模型如何从大模型「偷师」

2025 年初，AI 圈炸了一颗大雷：Anthropic 公开指控 DeepSeek 用了 1600 万次 Claude API 调用来训练自家模型。用的什么技术？就是知识蒸馏（Knowledge Distillation）——当今 AI 领域最强大、也最具争议的技术之一。

DeepSeek 否认了具体细节，但他们大大方方开源了 R1-Distill 系列——一组从 6710 亿参数的 R1 模型蒸馏出来的小模型。结果如何？小 10 到 400 倍的模型，保留了 85-95% 的推理能力。

时间来到 2026 年 3 月，蒸馏已经成为整个行业的标配。GPT-5-mini、GPT-5-nano、Gemini 2.5 Flash、Claude 4 Haiku、Llama 4 Scout/Maverick、Qwen 3 全系列——清一色蒸馏产物。可以说，蒸馏就是让便宜、快速的 AI 成为现实的核心技术。

今天我们就来把这件事讲透。

什么是模型蒸馏？

模型蒸馏（正式名称叫知识蒸馏）是一种训练技术：让一个大而强的教师模型把知识传授给一个小而快的学生模型。

打个比方：一个五星级大厨带徒弟。徒弟不需要从零开始发明每道菜，而是跟着师父看、跟着学——不光学「做什么菜」，更学「怎么思考做菜这件事」。

为什么不直接训练一个小模型？

三个原因：

小模型从原始数据里学不到那么多东西。 一个 7B 参数的模型就算用跟 670B 模型一样的数据训练，效果也会差很多——容量不够，提取不了那么复杂的规律。
教师模型能提供更好的训练信号。 学生不是学「答案是巴黎」，而是学教师的完整概率分布：「巴黎 92%、里昂 5%、马赛 2%…」——这种软信号携带的信息量大得多。
成本低到离谱。 从零训练一个 670B 模型要花几千万美元，但从它蒸馏出一个 7B 学生模型？几千美元就够了。

蒸馏 vs 微调 vs 预训练

维度	预训练	微调	蒸馏
起点	随机权重	预训练好的模型	预训练好的学生模型
训练数据	万亿级 Token（原始文本）	任务相关样本（1万-100万）	教师模型的输出
目标	学会语言	学会特定任务	压缩教师的知识
成本	$1000万-$1亿+	$100-$1万	$1000-$10万
产出	基础大模型	专用模型	更小、更快的模型

核心蒸馏技术

1. 软标签蒸馏（Hinton, 2015）

知识蒸馏的开山之作，由 Geoffrey Hinton 等人在 2015 年提出。核心思想是：不要让学生只学「硬标签」（这是一只猫），而是学教师的软概率分布。

原理是这样的：

教师模型通过温度缩放的 softmax 输出所有可能 Token 的概率分布：

标准输出 (T=1):  Paris: 0.95, Lyon: 0.03, Berlin: 0.01, ...
软化输出 (T=5):  Paris: 0.45, Lyon: 0.18, Berlin: 0.12, ...

温度越高，分布越「软」，越能暴露出教师的不确定性和各选项之间的关系。学生学到的不只是正确答案，还有教师「有多确信」以及「还考虑过哪些选项」。

损失函数：

L = α × CrossEntropy(student_output, hard_labels) 
  + β × KL_Divergence(student_soft_output, teacher_soft_output)

学生同时优化两个目标：答对（硬标签）和模仿教师的思路（软标签）。

2. 硬标签蒸馏（基于响应）

LLM 时代最简单、最流行的方法。操作极其直白：

把 Prompt 扔给教师模型
收集它的文本输出
用这些输出去微调学生模型

Alpaca、Vicuna 以及大量开源模型就是这么来的——用 ChatGPT/GPT-4 的输出去微调 LLaMA。

优点： 不需要访问教师的内部结构，任何 API 都能用。
缺点： 丢失了软概率分布里的细微信息。

3. 思维链（CoT）蒸馏

这是 DeepSeek-R1-Distill 等推理模型背后的杀手锏。不光收集答案，还收集教师的逐步推理过程。

举个例子：

Prompt: "What is 17 × 23?"

Teacher output (with CoT):
"Let me break this down:
17 × 23 = 17 × 20 + 17 × 3
17 × 20 = 340
17 × 3 = 51
340 + 51 = 391
The answer is 391."

学生学到的不光是 17 × 23 = 391，还有怎么一步步推理出来的。这就是为什么 DeepSeek-R1-Distill 系列模型展现出了真正的推理能力——它们内化了推理模式，而不仅仅是答案。

4. 特征蒸馏

学生学习模仿教师的中间表示（隐藏层激活值），而不只是最终输出。这能传递更深层的结构化知识，但需要访问教师模型的内部结构。

主要用在科研场景——商业蒸馏大多用响应蒸馏或 CoT 蒸馏。

蒸馏名人堂

来看看当今 AI 圈有哪些重量级模型是蒸馏出来的：

开源蒸馏模型

模型	教师	学生底座	参数量	关键成就
DeepSeek-R1-Distill-Qwen-32B	DeepSeek-R1 (671B MoE)	Qwen-2.5-32B	32B	数学推理超过 GPT-4o
DeepSeek-R1-Distill-Llama-70B	DeepSeek-R1 (671B MoE)	Llama-3.1-70B	70B	1/10 体量达到 R1 的 95% 推理能力
DeepSeek-R1-Distill-Qwen-14B	DeepSeek-R1 (671B MoE)	Qwen-2.5-14B	14B	单卡可跑
DeepSeek-R1-Distill-Qwen-7B	DeepSeek-R1 (671B MoE)	Qwen-2.5-7B	7B	消费级显卡可跑
DeepSeek-R1-Distill-Qwen-1.5B	DeepSeek-R1 (671B MoE)	Qwen-2.5-1.5B	1.5B	可部署到手机端
Llama 4 Scout	Llama 4 Behemoth (2T+)	自研 MoE	109B（17B 活跃）	1000 万上下文，从 Behemoth 蒸馏
Llama 4 Maverick	Llama 4 Behemoth (2T+)	自研 MoE	400B（17B 活跃）	前沿多模态，从 Behemoth 蒸馏
Qwen 3 全系列	Qwen 3-235B (MoE)	多种底座	0.6B-32B	从 235B MoE 教师蒸馏出完整家族
Qwen 3.5 Small 系列	Qwen 3.5 大模型	多种底座	0.8B-9B	端侧优化，2026.3 发布
Gemma 3 (Google)	Gemini Pro	自研架构	1B-27B	从 Gemini 蒸馏的开源模型
Phi-4-mini (Microsoft)	GPT-4 + 合成数据	自研架构	3.8B	STEM 性能超过 10 倍大的模型
Orca 2 (Microsoft)	GPT-4	LLaMA-2-13B	13B	学会了自主选择推理策略
Vicuna-13B (2023)	ChatGPT	LLaMA-13B	13B	首个成功的开源蒸馏案例
Alpaca-7B (2023)	text-davinci-003	LLaMA-7B	7B	5.2万条指令蒸馏，成本仅 $600

商业蒸馏模型（截至 2026 年 3 月）

模型	可能的教师	参数量	成本降低	性能保留
GPT-5-mini	GPT-5	未公开	便宜约 50 倍	GPT-5 的 ~82%
GPT-5-nano	GPT-5	未公开	便宜约 100 倍	GPT-5 的 ~70%
GPT-4o-mini	GPT-4o	~8B（估）	便宜 60 倍	GPT-4o 的 ~82%
Gemini 2.5 Flash	Gemini 2.5 Pro	未公开	便宜约 8 倍	Pro 的 ~90%
Gemini 2.0 Flash	Gemini 2.0 Pro	未公开	便宜 10 倍	Pro 的 ~88%
Claude 4 Haiku	Claude 4 Sonnet	未公开	便宜约 8 倍	Sonnet 的 ~83%
Claude 3.5 Haiku	Claude 3.5 Sonnet	未公开	便宜 10 倍	Sonnet 的 ~80%
Mistral Small	Mistral Large	22B	便宜 6 倍	Large 的 ~78%
Qwen-Turbo	Qwen-Max	未公开	便宜 10 倍	Max 的 ~80%

划重点： 你在 API 里调用的几乎每一个带 “mini”、“nano”、“flash”、“haiku”、“turbo” 后缀的模型，都是从更大模型蒸馏出来的。你调 GPT-5-mini，本质上就是在用蒸馏技术的成果。连 Meta 的 Llama 4 Scout 和 Maverick，也是从未发布的 Behemoth 模型蒸馏而来。

🇨🇳 中国蒸馏生态：一股不可忽视的力量

在蒸馏这条路上，中国团队走得非常快：

DeepSeek 堪称蒸馏界的标杆。R1-Distill 系列选择 Qwen 和 Llama 作为学生底座，效果炸裂——32B 版本在数学推理上甚至超过了 GPT-4o。更关键的是，DeepSeek 明确允许 其他人使用 R1 的输出做蒸馏，这在闭源厂商中极为罕见。
Qwen（通义千问） 系列本身就是蒸馏的热门学生底座。从 Qwen-2.5-1.5B 到 72B，覆盖从手机端到服务器的全场景。阿里还推出了 Qwen-Turbo 作为 Qwen-Max 的蒸馏版，成本降低 10 倍。
MiniCPM（面壁智能）用极小的参数量做到了惊人的效果，大量依赖蒸馏 + 合成数据策略。
Yi 系列（零一万物）、GLM 系列（智谱）也在自己的模型族谱中广泛使用蒸馏技术。

对于国内开发者来说，蒸馏意味着：你不需要花几千万训大模型，用 DeepSeek R1 或 Qwen-Max 当教师，蒸馏一个适合自己场景的小模型，成本可能只要几千块人民币。

争议：蒸馏什么时候变成了「偷」？

蒸馏技术处在法律和伦理的灰色地带。来看看各方的立场：

Anthropic vs DeepSeek 事件

2025 年初，Anthropic 公布了证据，指控 DeepSeek：

对 Claude 进行了 1600 万次 API 调用
用 Claude 的输出（包括推理链）作为训练数据
训练出的模型展现出了类似 Claude 的行为模式

DeepSeek 承认使用了多个前沿模型的输出作为训练流程的一部分——这在技术上违反了大多数 API 的使用条款。

各家对蒸馏的态度

厂商	对输出蒸馏的政策	执行力度
OpenAI	❌ 明确禁止（仅允许对自家模型做微调）	主动监控
Anthropic	❌ 禁止用于训练竞品模型	威胁法律行动
Google	❌ 大多数 Gemini 输出禁止用于训练	服务条款约束
DeepSeek	✅ 明确允许蒸馏 R1 输出	开放许可
Meta (Llama)	⚠️ 有限制的允许（Llama 2 禁止训练 >700M 参数模型）	社区许可
Mistral	✅ 大多数模型 Apache 2.0 许可	完全开放
Qwen（阿里）	✅ 允许蒸馏	开放许可

学术界怎么看

研究者大多认为蒸馏是正当且必要的技术：

它让 AI 能力平民化
它让端侧部署成为可能
它是机器学习「知识级联」的自然组成部分

商业公司怎么看

投入数十亿训练前沿模型的公司，把未经授权的蒸馏视为：

知识产权侵权
不正当竞争
对商业模式的威胁

一个尴尬的事实： 整个开源 AI 生态——从 Alpaca 到 DeepSeek-R1-Distill——很大程度上就是靠蒸馏闭源模型建立起来的。这到底是创新还是偷窃？看你问谁了。

开发者如何用蒸馏省钱

你不需要是 DeepSeek 才能用蒸馏。下面是一套实战流程：

第一步：用大模型生成训练数据

用强大的模型为你的特定场景生成高质量的回答：

from openai import OpenAI
import json

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

# Define your task-specific prompts
prompts = [
    "Classify this customer email as: billing, technical, general. Email: ...",
    "Extract product name and price from this text: ...",
    # ... hundreds or thousands of examples
]

training_data = []
for prompt in prompts:
    response = client.chat.completions.create(
        model="gpt-5",  # Use a powerful teacher model
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3
    )
    training_data.append({
        "prompt": prompt,
        "response": response.choices[0].message.content
    })

# Save training dataset
with open("distillation_data.jsonl", "w") as f:
    for item in training_data:
        f.write(json.dumps(item) + "\n")

第二步：微调一个小模型

用生成的数据去微调一个更便宜的模型：

# Fine-tune GPT-4o-mini on your distillation data
file = client.files.create(
    file=open("distillation_data.jsonl", "rb"),
    purpose="fine-tune"
)

job = client.fine_tuning.jobs.create(
    training_file=file.id,
    model="gpt-4o-mini"
)

第三步：部署上线，省钱真香

微调后的 mini 模型在你的特定场景里，表现接近 Claude Sonnet——但成本只有零头。

什么时候该蒸馏，什么时候直接调大模型？

场景	建议	原因
日请求量 < 1K	直接调大模型	蒸馏的前期投入不划算
日请求量 1K-100K	考虑蒸馏	省下来的钱开始有感
日请求量 > 100K	必须蒸馏	10-60 倍的成本差距，每天都在复利
延迟敏感（< 200ms）	蒸馏	小模型快 3-10 倍
数据隐私要求高	蒸馏 + 自托管	数据不出服务器
任务经常变化	直接调大模型	重新蒸馏成本不低

通过 Crazyrouter，你可以用同一个 API Key 从任何教师模型（Claude、GPT、Gemini、DeepSeek）生成训练数据，然后部署你蒸馏出的学生模型——全部通过一个统一的 API 端点搞定。

蒸馏的未来（其实已经是 2026 年的现在）

这些「未来趋势」，很多已经在落地了：

MoE + 蒸馏： Llama 4 和 Qwen 3 把 MoE（混合专家）架构和蒸馏结合——教师是超大 MoE 模型，学生是更小的 MoE 或稠密模型。这已经成为主流范式。
自蒸馏（Self-distillation）： 模型自己蒸馏自己（DeepSeek-R1 就用了强化学习 + 自蒸馏）
渐进式蒸馏（Progressive distillation）： 多级蒸馏链（Behemoth → Maverick → Scout；R1 671B → 70B → 32B → 7B → 1.5B）
端侧蒸馏： Qwen 3.5 Small 系列（0.8B-9B）专门为手机和边缘设备蒸馏优化
任务特化蒸馏： 不做通用压缩，只蒸馏你需要的能力
合成数据蒸馏： 用教师模型生成整个训练数据集（微软的 Phi 系列、Google 的 Gemma）

趋势很明确：前沿大模型正在变成训练数据的生成器。你可能永远不会直接调那个最大的模型——但你用的每个便宜模型，都是从它身上蒸馏出来的。

对于中国开发者来说，这是一个巨大的机遇。DeepSeek 和 Qwen 系列已经提供了高质量、可合法蒸馏的开源大模型。你不需要拿别人的闭源 API 偷偷蒸馏，完全可以在开源生态里合法、高效地打造自己的专属模型。

总结

蒸馏就是大模型（教师）把知识传授给小模型（学生）
你用的每个 mini/flash/haiku/turbo 模型，大概率都是蒸馏出来的
DeepSeek-R1-Distill 证明了蒸馏模型也能媲美前沿推理能力
争议不断——大多数 API 厂商禁止用输出训练竞品
开发者也能用——用大模型生成训练数据，微调小模型
省钱效果惊人——成本降低 10-60 倍，性能保留 80-95%

延伸阅读

知识蒸馏是让强大 AI 能力走向普及的关键技术。本文数据更新于 2026 年 3 月，涵盖 Llama 4、Qwen 3、GPT-5、Gemini 2.5 等最新蒸馏案例。获取最新模型对比和价格信息，请访问 Crazyrouter 博客。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

子代理系统：分身术与并行执行

AtomGit开源社区

全栈项目穿透时，后端到底要不要暴露到公网？我的答案是不用

AtomGit开源社区

从 Prompt 到 Harness：AI Agent 工程化的三层演进

025年，AI Agent 从概念走向落地。在2026年的今天，三个工程概念逐渐成为行业共识：- Prompt Engineering（提示词工程）- Context Engineering（上下文工程）- Harness Engineering（驾驭框架工程）这三个概念不是替代关系，而是演进关系——它们分别解决了 AI 系统中三个不同层次的问题。本文将从本质定义、核心挑战、真实案例三个维度，拆解