【模型架构篇02】模型压缩：知识蒸馏与剪枝

weixin_54908067

486人浏览 · 2026-06-08 14:42:52

weixin_54908067 · 2026-06-08 14:42:52 发布

【模型架构篇02】模型压缩：知识蒸馏与剪枝

前言：大模型强则强矣，但没人用得起也白搭。部署一篇我们讲了量化——给模型"降精度"缩小体积。但量化不是唯一手段。知识蒸馏可以让小模型继承大模型的能力，剪枝可以砍掉模型中80%用不上的参数，低秩分解可以压缩冗余的权重矩阵。三种技术联合使用，能把一个7B模型压缩到1.5B的水平，保留95%以上的性能。本文从原理到实战，拆解大模型轻量化的"三驾马车"。

一、为什么需要模型压缩？

1.1 大模型的"身材焦虑"

参数量就是性能，但参数量也是成本：

模型规模            ← 性能            
   7B → 很好，13B → 更好，70B → 最好
              ↓
                    → 成本 →
   7B：1张A100      $2/小时
  13B：1张A100       $2/小时
  70B：8张A100      $16/小时 ← 贵8倍！

问题：
  70B模型性能比7B好，但好不了8倍
  如果你的场景不需要最强的模型
  完全可以用一个更小、更便宜的模型
  但小模型能力不够 → 需要压缩技术让"小模型变大能力"

1.2 压缩能省多少？

以Qwen2.5-72B压缩到7B级别为例：

┌──────────────┬────────────┬───────────┬───────────┐
│ 方案          │ 模型大小    │ 推理速度   │ 性能保留  │
├──────────────┼────────────┼───────────┼───────────┤
│ 原始72B FP16  │ 144GB      │ 基准      │ 100%      │
│ 72B INT4量化  │ 36GB       │ 2-3倍↑    │ 95-97%    │
│ 72B→7B蒸馏   │ 14GB       │ 8-10倍↑   │ 85-92%    │
│ 7B剪枝50%    │ 7GB        │ 2倍↑      │ 90-95%    │
│ 7B剪枝+INT4  │ 3.5GB      │ 4倍↑      │ 85-90%    │
│ 组合拳(全部)  │ 1.5-3.5GB  │ 10-20倍↑  │ 80-90%    │
└──────────────┴────────────┴───────────┴───────────┘

关键洞察：
  每一种技术单独使用时，性能损失可控
  组合使用时，能实现10-20倍的效率提升
  而性能只下降10-20%
  → 这是"性价比最高"的优化方式

1.3 压缩 vs 直接用小模型

为什么不直接训练一个小模型，而要压缩？

直接训练7B:
  需要从头预训练
  数据：2T tokens
  GPU：256张×30天
  成本：数百万美元
  时间：一个月

72B蒸馏到7B:
  教师模型已经存在
  数据：少量高质量数据（十万级）
  GPU：8张×3天
  成本：数千美元
  时间：三天

结论：
  蒸馏/剪枝是"站在巨人肩膀上"
  直接训练小模型是"从零开始"
  除非你想自研全新架构，否则蒸馏更划算

二、三驾马车：剪枝、蒸馏、量化全景对比

2.1 三驾马车的定义

模型压缩的三大核心技术：

┌──────────────────────────────────────────────────────┐
│                                                       │
│  1️⃣ 知识蒸馏（Knowledge Distillation）                │
│     用大模型（教师）教小模型（学生）                    │
│     学生学到了教师的"知识"，但参数少得多               │
│                                                       │
│  2️⃣ 模型剪枝（Model Pruning）                         │
│     砍掉模型中"不重要"的权重                           │
│     像修剪树枝——砍掉冗余的，保留关键的                 │
│                                                       │
│  3️⃣ 模型量化（Model Quantization）                    │
│     用更少比特存储参数（FP16→INT4）                    │
│     上一篇文章已详细讲过                                 │
│                                                       │
└──────────────────────────────────────────────────────┘

核心区别：
  蒸馏：改变模型结构（小模型），重新训练
  剪枝：改变模型结构（稀疏化），不改变参数值/精度
  量化：不改变结构，只改变参数精度

2.2 三者对比

┌────────────┬───────────┬───────────┬───────────┬───────────┐
│ 维度        │ 蒸馏      │ 剪枝      │ 量化      │ 低秩分解  │
├────────────┼───────────┼───────────┼───────────┼───────────┤
│ 需要重新训练 │ ✅ 需要   │ 不一定    │ ❌ 不需要  │ 不一定    │
│ 改变网络结构 │ ✅ 新模型  │ ✅ 稀疏   │ ❌ 不改变  │ ✅ 压缩  │
│ 压缩比      │ 5-10倍    │ 2-4倍     │ 4倍       │ 2-4倍    │
│ 性能损失    │ 中(5-15%) │ 小(3-10%) │ 小(3-8%)  │ 小(3-8%) │
│ 推理加速    │ 5-10倍    │ 1.5-2倍   │ 2-4倍     │ 1.5-2倍  │
│ 硬件兼容    │ 任何硬件   │ 需稀疏支持  │ 需量化支持 │ 任何硬件 │
│ 实现难度    │ 中        │ 高        │ 低        │ 中       │
│ 适用场景    │ 替代小模型  │ 边缘设备   │ 通用      │ 全连接层  │
└────────────┴───────────┴───────────┴───────────┴───────────┘

组合收益：
  剪枝 + 量化：压缩比 8-16倍
  蒸馏 + 量化：压缩比 20-40倍
  剪枝 + 蒸馏 + 量化：压缩比 40-80倍

2.3 2026年行业实践

不同场景的主流压缩方案：

┌──────────────┬────────────────────┬────────────────────────┐
│ 场景          │ 推荐方案           │ 理由                    │
├──────────────┼────────────────────┼────────────────────────┤
│ 云端API服务   │ 量化(FP8/INT8)     │ 不需要改模型结构        │
│              │                    │ 只需改精度              │
│              │                    │ 质量损失极小             │
├──────────────┼────────────────────┼────────────────────────┤
│ 手机/平板     │ 蒸馏+量化          │ 需要大幅缩小模型体积    │
│              │                    │ 蒸馏先砍架构            │
│              │                    │ 量化再砍精度            │
├──────────────┼────────────────────┼────────────────────────┤
│ IoT/嵌入式    │ 剪枝+蒸馏+量化     │ 极致压缩                │
│              │                    │ 三种技术全上            │
│              │                    │ 体积压缩到1/40以上      │
├──────────────┼────────────────────┼────────────────────────┤
│ 车机/自动驾驶 │ 剪枝+INT8量化      │ 实时性要求高            │
│              │                    │ 剪枝加速推理            │
│              │                    │ 量化省显存              │
├──────────────┼────────────────────┼────────────────────────┤
│ 笔记本电脑    │ 蒸馏               │ 不需要极致压缩          │
│              │                    │ 蒸馏保持高质量          │
└──────────────┴────────────────────┴────────────────────────┘

三、知识蒸馏：大模型教小模型

3.1 核心思想

知识蒸馏（Knowledge Distillation, KD）= 师傅带徒弟

谁都不想当徒弟，但"有大模型教"就是不一样：

传统训练（没有蒸馏）：
  小模型直接从原始数据学习
  数据："法国的首都是巴黎" ← 标答
  小模型：我记住了，法国→巴黎

蒸馏训练（有大模型教）：
  教师模型生成"软标签"
  问："法国的首都是什么？"
  教师输出：巴黎(95%), 伦敦(3%), 柏林(1%), 马赛(1%)
  小模型："哦，原来不只是巴黎这个答案，而是巴黎的可能性是95%"
  → 小模型学到了"分布"，而不只是"答案"

这就是蒸馏的核心优势：
  硬标签（原始数据）：只有一个正确答案
  软标签（教师输出）：整个概率分布
  学生从分布中学到了"知识之间的关联"

3.2 蒸馏的数学原理

标准训练（原始的交叉熵损失）：
  Loss = -Σ y_true × log(y_pred)
  其中y_true是one-hot编码 [0,0,1,0,0,...,0]
  只告诉模型"正确答案是哪一个"

蒸馏训练（蒸馏损失）：
  Loss = α × 硬标签损失 + (1-α) × 蒸馏损失

  硬标签损失：
    L_hard = -Σ y_true × log(y_student)
    和标准训练一样

  蒸馏损失（关键创新）：
    L_distill = -Σ softmax(y_teacher/T) × log(softmax(y_student/T))
    
    其中T是温度参数（Temperature）：
    T=1：标准softmax
    T>1：分布更"平滑"（教师告诉学生更多信息）
    T=5：分布很平滑，教师把"第二可能"的信息也教给学生

为什么T>1有用？
  T=1时的分布：巴黎(0.95), 伦敦(0.03), 柏林(0.01), 马赛(0.01)
  T=5时的分布：巴黎(0.35), 伦敦(0.25), 柏林(0.20), 马赛(0.20)
  
  → T=1时，学生几乎只学到"巴黎"
  → T=5时，学生学到了"巴黎和伦敦有些相似"这种隐知识
  → 这种"隐知识"是蒸馏的精髓

3.3 大模型时代的蒸馏：从"输出层"到"中间层"

传统蒸馏（小模型时代）：
  只在输出层做蒸馏
  教师→学生：学我的输出分布

大模型时代的蒸馏（大模型时代）：
  输出层蒸馏：学生学教师的输出
  中间层蒸馏：学生学教师隐藏层的表达
  注意力蒸馏：学生学教师的注意力模式
  关系蒸馏：学生学教师对pair关系的判断

大模型蒸馏的四种方法：

1️⃣ 黑盒蒸馏（最常用）
  只使用教师模型的输出
  不需要访问教师模型的内部
  可以用API调用（如GPT-4的API）
  
  流程：
    收集大量问题 → 调用GPT-4 API → 得到答案
    → 用(Q, A)数据训练小模型
  ✅ 简单通用，任何教师都行
  ❌ 只学到了"答案"，没学到"推理过程"

2️⃣ 白盒蒸馏（效果最好）
  需要访问教师模型的权重和中间层
  学生学习教师的中间层表示
  
  流程：
    同时前向传播教师和学生
    对齐学生的中间层 = 教师的中间层
    对齐学生的注意力 = 教师的注意力
    对齐学生的输出 = 教师的输出
  
  ✅ 学到更深层的知识
  ❌ 需要教师模型权重（不再是"API调用"了）

3️⃣ 上下文蒸馏（Context Distillation）
  教师生成带推理链的回答
  学生不仅学"答案"，还学"推理过程"
  
  "What is 23×47? Let me calculate step by step:..."
  → 学生不仅知道答案，还学会了解题方法

4️⃣ 渐进式蒸馏（Progressive Distillation）
  Step 1：GPT-4 → LLaMA-70B
  Step 2：LLaMA-70B → LLaMA-13B
  Step 3：LLaMA-13B → LLaMA-7B
  
  每一步只缩小一点
  比一次从GPT-4蒸馏到7B效果好

3.4 蒸馏的实际效果

2025-2026年蒸馏模型的典型效果：

┌──────────────┬───────┬────────┬────────┬────────────┐
│ 模型          │ 参数量 │ 训练方式 │ MMLU   │ 相对性能  │
├──────────────┼───────┼────────┼────────┼────────────┤
│ GPT-4(教师)   │ 1.8T  │ 预训练  │ 86.4%  │ 100%       │
│ GPT-4o mini   │ 8B    │ 蒸馏    │ 82.0%  │ 95%        │
│ ↑ 性能保留95%，体积缩小225倍！                        │
├──────────────┼───────┼────────┼────────┼────────────┤
│ Gemini Pro   │ 非公开 │ 预训练  │ ~87%   │ 100%       │
│ Gemini Nano  │ 1.8B   │ 蒸馏    │ ~68%   │ 78%        │
│ ↑ 可在手机上离线运行                               │
├──────────────┼───────┼────────┼────────┼────────────┤
│ DeepSeek-V3  │ 671B   │ 预训练  │ ~89%   │ 100%       │
│ DeepSeek-R1  │ 671B   │ 强化    │ ~90%   │ -          │
│ DeepSeek-Lite│ 7B     │ 蒸馏+R1 │ ~78%   │ 87%        │
└──────────────┴───────┴────────┴────────┴────────────┘

关键结论：
  蒸馏是最有效的压缩方式
  能把1000B+级别的知识压缩到8B级别
  性能保留在90-95%

3.5 DeepSeek R1的蒸馏实践（2025-2026标杆）

DeepSeek R1不仅自己强，还蒸馏了一批Open-Source模型：

R1的蒸馏方法论：
  教师：DeepSeek-R1（671B，强化训练后的推理模型）
  学生：Qwen/Llama 7B/14B/32B

蒸馏过程：
  Step 1：R1生成80万条推理链数据
    "问题 → 思考过程 → 答案"
    每条都包含详细的CoT推理

  Step 2：用这些数据微调小模型
    学生模型学会"推理式思考"
    而不是仅仅"输出答案"

  Step 3：不需要再蒸馏
    小模型已经继承了R1的推理能力

效果：
  DeepSeek-R1-Distill-Qwen-7B
  → 在数学推理上超越GPT-4！
  → 7B模型击败了1.8T模型

这就是蒸馏的最高境界：
  不是"让小模型更接近大模型"
  而是"让小模型在某些任务上超越大模型"
  → 因为蒸馏让学生学到了"最好的推理模式"
  → 而不仅仅是"模仿输出"

四、模型剪枝：砍掉冗余参数

4.1 剪枝的直觉

剪枝的核心洞察：
  大模型中的大部分参数是"冗余的"
  砍掉它们，模型性能几乎不受影响

为什么会有冗余？
  1️⃣ 过度参数化
     7B参数的语言任务可能只需要3-5B就够
     多余的是"保险冗余"

  2️⃣ 权重分布
     大部分权重接近0
     只有少部分权重显著不为0

  3️⃣ 神经元选择性
     某些神经元只在特定任务上激活
     平时基本不工作

剪枝的效果（以7B模型为例）：
  剪掉30%的参数 → 性能下降1-2%
  剪掉50%的参数 → 性能下降5-8%
  剪掉80%的参数 → 性能下降15-25%

4.2 非结构化剪枝 vs 结构化剪枝

非结构化剪枝（剪权重）：
  砍掉单个权重值
  把小于阈值的权重设为0
  
  效果：压缩率高（可砍80%参数）
  代价：矩阵变成"稀疏矩阵"，需要专用硬件加速
  硬件兼容：差（大多数GPU不支持稀疏计算）
  
  矩阵视角：
    原始：[[1.2, 0.01, 3.4], [0.5, 0.001, 2.1]]
    剪枝：[[1.2, 0.00, 3.4], [0.5, 0.000, 2.1]]
    压缩率：50%（砍掉了一半参数）
    但存储还得存0，实际压缩效果有限

结构化剪枝（剪通道/头/层）：
  砍掉整个通道、注意力头或层
  
  效果：压缩率中等（可砍30-50%参数）
  代价：不改变矩阵结构，无需专用硬件
  硬件兼容：好（任何GPU都可以）
  
  剪掉一个注意力头：
    原始：8个注意力头 → 剪掉2个 → 6个头
    矩阵大小直接减少25%
    推理速度直接提升25%

2026年主流：结构化剪枝
  因为非结构化剪枝的稀疏矩阵推理没有广泛硬件支持
  结构化剪枝直接减少计算量

4.3 剪枝的决策：什么重要？

剪枝的核心问题：怎么判断哪些参数"不重要"？

方法1：基于权重大小（Magnitude Pruning）
  最简单的剪枝方法
  假设：权重越大越重要，越小越不重要
  做法：把所有权重排序，砍掉最小的X%
  
  ✅ 实现简单
  ❌ 小权重可能实际上很重要（比如BN层）

方法2：基于激活值（Activation-aware）
  权重大小不代表它真的被"用到"
  需要看"激活值"——前向传播时这个权重被激活了多少
  
  做法：
    输入一批数据
    记录每个权重的激活值大小
    砍掉激活值最小的权重

方法3：SparseGPT（2023，大模型剪枝的突破）
  不需要重新训练！
  直接在预训练模型上做一次性剪枝
  
  原理：
    用一个"近似"的方式估计砍掉某个权重的影响
    只砍掉那些"不重要的"
    
  效果：
    在OPT-175B上剪枝50% → 困惑度只增加2.3%
    → 一次剪枝，无需微调！

方法4：Wanda（2024，更简单有效）
  比SparseGPT更简单的剪枝标准
  评分 = |权重| × ‖激活值列‖
  权重大 + 激活值大 = 重要 → 保留
  权重小 + 激活值小 = 不重要 → 砍掉

  效果：和SparseGPT接近，但实现简单100倍

2026年剪枝现状：
  一次性剪枝（SparseGPT/Wanda）已成为默认做法
  不需要重新训练
  剪枝50%基本上不影响性能

4.4 剪枝实现示例

# 简化版：基于权重大小的非结构化剪枝

import torch
import torch.nn as nn
import numpy as np

def magnitude_prune(model, pruning_ratio=0.5):
    """
    基于权重大小的剪枝
    """
    total_params = 0
    pruned_params = 0
    
    for name, param in model.named_parameters():
        if 'weight' in name and param.dim() >= 2:
            total_params += param.numel()
            
            # 计算阈值：所有权重的第pruning_ratio百分位数
            flat_weights = param.data.abs().flatten()
            threshold = torch.quantile(flat_weights, pruning_ratio)
            
            # 创建掩码：大于阈值的保留，小于的砍掉
            mask = param.data.abs() > threshold
            param.data *= mask.float()
            
            pruned_params += (mask == 0).sum().item()
    
    return pruned_params / total_params

# 使用
model = load_your_model()
sparsity = magnitude_prune(model, pruning_ratio=0.5)
print(f"剪枝率: {sparsity:.1%}")

# Wanda剪枝（简化版）
def wanda_prune(model, calib_data, pruning_ratio=0.5):
    """
    Wanda剪枝：权重×激活值作为重要性评分
    """
    # Step 1: 收集激活值统计
    activation_norms = {}
    
    # 注册hook收集每层的激活值
    hooks = []
    for name, module in model.named_modules():
        if isinstance(module, nn.Linear):
            def hook_fn(module_name, m, input, output):
                # 计算输入激活值的列范数
                x = input[0].float()
                # [batch, seq_len, dim]
                activation_norms[module_name] = x.norm(p=2, dim=(0, 1))
            
            hooks.append(
                module.register_forward_hook(
                    lambda m, i, o, n=name: hook_fn(n, m, i, o)
                )
            )
    
    # Step 2: 用校准数据前向传播
    with torch.no_grad():
        for batch in calib_data:
            model(batch)
    
    # 移除hook
    for hook in hooks:
        hook.remove()
    
    # Step 3: 对每层进行剪枝
    total_pruned = 0
    total_params = 0
    
    for name, module in model.named_modules():
        if isinstance(module, nn.Linear) and name in activation_norms:
            weight = module.weight.data.float()
            act_norm = activation_norms[name]
            
            # Wanda评分 = |权重| × 激活值范数
            score = weight.abs() * act_norm.unsqueeze(0)
            
            # 确定阈值
            threshold = torch.quantile(
                score.flatten(), 
                pruning_ratio
            )
            
            # 剪枝
            mask = score > threshold
            module.weight.data *= mask.float().to(module.weight.device)
            
            total_pruned += (mask == 0).sum().item()
            total_params += weight.numel()
    
    return total_pruned / total_params

五、低秩分解与矩阵近似

5.1 低秩分解的原理

低秩分解（Low-Rank Factorization）的核心洞察：
  很多权重矩阵的"有效秩"远低于它的实际维度
  可以用两个小矩阵的乘积来近似一个大矩阵

直观理解：
  原始权重矩阵 W：4096×4096 = 16,777,216个参数
  分解为 A × B：
    A：4096×64 = 262,144个参数
    B：64×4096 = 262,144个参数
    总共：524,288个参数
    压缩比：16,777,216 / 524,288 ≈ 32倍！

数学原理：
  W ≈ A × B
  其中W的秩为r，A的秩也为r
  r远小于原始维度

这和LoRA的关系：
  LoRA本质上就是低秩分解
  只不过LoRA是"微调"时用，不改变原权重
  低秩分解是"压缩"时用，直接替换原权重

5.2 SVD分解压缩

import torch
import torch.nn as nn

def svd_compress(weight_matrix, rank_ratio=0.25):
    """
    SVD分解压缩权重矩阵
    
    参数:
        weight_matrix: 形状 [out_dim, in_dim]
        rank_ratio: 保留的奇异值比例
    返回:
        A, B: 两个小矩阵
    """
    # SVD分解
    U, S, V = torch.svd(weight_matrix.float())
    
    # 确定保留的秩
    total = S.sum()
    cumulative = 0
    k = 0
    for i, s in enumerate(S):
        cumulative += s
        if cumulative / total >= rank_ratio:
            k = i + 1
            break
    
    # 截断SVD
    U_k = U[:, :k]          # [out_dim, k]
    S_k = S[:k]             # [k]
    V_k = V[:, :k]          # [in_dim, k]
    
    # 构造两个小矩阵
    A = U_k @ torch.diag(torch.sqrt(S_k))   # [out_dim, k]
    B = torch.diag(torch.sqrt(S_k)) @ V_k.T # [k, in_dim]
    
    return A, B

# 使用示例
original = torch.randn(4096, 4096)
A, B = svd_compress(original, rank_ratio=0.25)

print(f"原始参数: {original.numel()}")
print(f"压缩后参数: {A.numel() + B.numel()}")
print(f"压缩比: {original.numel() / (A.numel() + B.numel()):.1f}x")

# 验证近似质量
reconstructed = A @ B
error = (original - reconstructed).norm() / original.norm()
print(f"近似误差: {error:.4f}")

5.3 各层压缩效果

不同层对SVD分解的敏感度：

┌──────────────┬───────────┬───────────┬────────────┐
│ 层类型        │ 原始参数量 │ 压缩50%后  │ 性能影响    │
├──────────────┼───────────┼───────────┼────────────┤
│ Embedding层   │ 大        │ 效果差    │ 明显下降    │
│ Attention QKV│ 大        │ 效果好    │ 影响小      │
│ Attention Out│ 大        │ 效果好    │ 影响小      │
│ FFN第一层     │ 很大      │ 效果好    │ 可接受      │
│ FFN第二层     │ 很大      │ 效果好    │ 可接受      │
│ LayerNorm     │ 小        │ 没必要    │ —           │
│ LM Head       │ 大        │ 效果差    │ 明显下降    │
└──────────────┴───────────┴───────────┴────────────┘

实践建议：
  Attention层：可以压缩到原秩的25-50%
  FFN层：可以压缩到原秩的20-40%
  Embedding/Head：不要压缩（或者用其他方法）
  
  整体压缩比：2-4倍
  性能保留：95-98%

六、组合拳：剪枝+蒸馏+量化的黄金配比

6.1 三者的协作关系

模型压缩"组合拳"不应该是简单堆砌：

❌ 错误的顺序：
  先量化 → 再剪枝 → 再蒸馏
  量化后的精度损失会影响剪枝的判断
  剪枝后的模型再蒸馏，分布已经变了

✅ 推荐顺序：
  先蒸馏 → 再剪枝 → 再量化
  
  Step 1：蒸馏（训练阶段）
    教师 → 学生：学知识
    学生模型参数少，体积减少5-10倍
    性能保留90-95%

  Step 2：剪枝（训练后）
    学生模型再砍掉不重要参数
    体积再减少2-4倍
    性能保留95%+

  Step 3：量化（推理阶段）
    最后做精度压缩
    体积再减少2-4倍
    性能保留95%+

  总效果：5×3×3 = 45倍压缩！

6.2 实际配比建议

不同场景的推荐配比：

场景1：云端部署（GPU富余）
  蒸馏：不需要（直接用大模型）
  剪枝：不需要
  量化：FP8 或 INT8
  压缩比：~2倍
  性能保留：~97%

场景2：消费级GPU（RTX 4090）
  蒸馏：不需要
  剪枝：15-30%（选择性剪枝关键层）
  量化：INT4 或 AWQ
  压缩比：~6倍
  性能保留：~92%
  典型：70B→INT4可在单张4090上跑

场景3：手机/平板端
  蒸馏：必须要（大模型变中小模型）
  剪枝：20-30%
  量化：INT4
  压缩比：~20倍
  性能保留：~85%

场景4：IoT/嵌入式
  蒸馏：必须要
  剪枝：50%+
  量化：INT4/NF4
  低秩分解：也要上
  压缩比：40-80倍
  性能保留：~75-85%
  典型：太空场景已实现（剪枝+蒸馏+量化到30W平台）

2026年最佳实践：
  云端：只量化，不动结构
  本地：剪枝+量化
  端侧：蒸馏+剪枝+量化
  IoT：全上

七、端侧部署与硬件协同优化

7.1 为什么端侧这么重要

2025-2026年最显著的趋势：AI从云端走向终端

为什么端侧部署越来越重要？

1️⃣ 隐私
  数据不上云 → 不出设备
  医疗数据、人脸信息、语音记录
  苹果/三星都在推"端侧AI"

2️⃣ 延迟
  云端推理：网络延迟50-500ms
  端侧推理：零网络延迟
  语音助手、实时翻译需要毫秒级响应

3️⃣ 离线可用
  没有网络也能用
  飞机上、地铁里、偏远地区

4️⃣ 成本
  云端API调用量大时成本可观
  端侧推理一次性硬件成本

端侧部署的核心约束：
  功耗：手机电池吃不消高频计算
  算力：手机NPU远不如H100
  内存：手机RAM 8-16GB，模型不能超过4-6GB

7.2 各厂商端侧部署方案

2026年端侧AI部署方案：

Apple Intelligence（Apple专用）：
  模型：Apple自研~3B模型
  芯片：A17 Pro/M4 Neural Engine
  压缩：蒸馏+剪枝+INT4量化
  效果：可在iPhone 15 Pro/16上离线运行

  Apple的独特优势：
    硬件自研（芯片+模型一起优化）
    Neural Engine专门为模型设计
    软件封闭生态（只服务Apple设备）

Qualcomm AI Engine（Android通用）：
  模型：Qwen2.5-1.5B/3B量化版
  芯片：Snapdragon 8 Gen 4 AI Engine
  压缩：INT4量化，Hexagon DSP优化
  效果：骁龙8 Gen 4可跑2-3B模型

  Qualcomm的独特优势：
    最大的Android生态
    和OEM厂商深度合作

MediaTek AI（中低端芯片）：
  模型：1B以下+蒸馏
  芯片：天玑9400 APU
  压缩：极致（剪枝+蒸馏+INT4+低秩分解）
  效果：在中低端手机也能跑轻量AI

ollama + llama.cpp（通用PC端）：
  模型：任意GGUF格式模型
  压缩：用户自己选Q4_K_M/Q5_K_M等
  效果：RTX 4090可跑70B Q4，MacBook可跑7B

7.3 苹果VS高通VS联发科端侧AI对比

2026年端侧AI方案对比：

┌────────────┬──────────┬──────────┬──────────┬──────────┐
│ 方案        │ 模型大小  │ 芯片      │ NPU算力  │ 典型功耗 │
├────────────┼──────────┼──────────┼──────────┼──────────┤
│ Apple      │ 3B INT4  │ M4/A17   │ 38 TOPS  │ ~5W      │
│ Intelligence│ ≈1.5GB  │ Pro      │          │          │
├────────────┼──────────┼──────────┼──────────┼──────────┤
│ Qualcomm   │ 3B INT4  │ 骁龙8G4  │ 45+ TOPS │ ~8W      │
│ AI Engine  │ ≈1.5GB   │          │          │          │
├────────────┼──────────┼──────────┼──────────┼──────────┤
│ MediaTek   │ 1-2B     │ 天玑9400 │ 30+ TOPS │ ~4W      │
│ AI         │ QINT4    │          │          │          │
├────────────┼──────────┼──────────┼──────────┼──────────┤
│ ollama     │ 7B Q4_K  │ RTX 4090 │ —        │ 150-450W │
│ 桌面端     │ ≈3.5GB   │          │          │          │
└────────────┴──────────┴──────────┴──────────┴──────────┘

关键洞察：
  手机端：最多能跑到3B量级（INT4量化后约1.5GB）
  桌面端：可以跑70B（INT4量化后约35GB）
  IoT端：只能跑0.5-1B（需要极致压缩）
  3B INT4的端侧模型 ≈ 7B FP16的云端模型
  → 因为蒸馏让小模型学到了大模型的知识

八、压缩方案选型决策

8.1 决策流程图

你的目标是？
│
├─ 减少模型体积（存储/加载）
│  ├─ 不在乎速度、只看体积 → 量化（INT4/NF4）
│  └─ 体积和速度都要 → 剪枝+量化
│
├─ 加速推理（响应时间）
│  ├─ 有GPU → 量化（FP8/INT8）
│  └─ 无GPU/CPU推理 → 剪枝+蒸馏+INT4
│
├─ 降低成本（推理成本）
│  ├─ 未部署 → 蒸馏（换小模型）
│  ├─ 已部署、批量大 → 量化（FP8）
│  └─ 需要极致降本 → 以上全部
│
└─ 端侧部署
   ├─ 手机 → 蒸馏+INT4
   ├─ PC/Mac → 量化+剪枝
   └─ IoT → 蒸馏+剪枝+量化+低秩分解

8.2 压缩效果速查表

┌────────────────────────┬─────────┬─────────┬──────────┐
│ 方案                    │ 体积减少 │ 速度提升 │ 质量保留  │
├────────────────────────┼─────────┼─────────┼──────────┤
│ 仅量化 FP8              │ 50%     │ 80%     │ 99%      │
│ 仅量化 INT4             │ 75%     │ 3倍     │ 95%      │
│ 仅剪枝 50%              │ 50%     │ 40%     │ 95%      │
│ 仅蒸馏 7B→1.5B          │ 80%     │ 5倍     │ 88%      │
│ 低秩分解 50%            │ 50%     │ 30%     │ 95%      │
│ 剪枝+INT4               │ 87%     │ 5倍     │ 90%      │
│ 蒸馏+INT4               │ 95%     │ 10倍    │ 85%      │
│ 蒸馏+剪枝+INT4          │ 97%     │ 15倍    │ 82%      │
│ 四件套全上               │ 98%     │ 20倍    │ 80%      │
└────────────────────────┴─────────┴─────────┴──────────┘

⚠️ 注意：
  以上是理想条件下的数据
  实际效果因模型、任务、数据而异
  最终选型建议：先做最简单的量化
  效果不够再往上加

九、实战：完整模型压缩流程

9.1 蒸馏脚本

# distill.py - 知识蒸馏示例

import torch
import torch.nn as nn
import torch.nn.functional as F
from transformers import AutoModelForCausalLM, AutoTokenizer

class KnowledgeDistillation:
    """知识蒸馏训练器"""
    
    def __init__(self, teacher_model_name, student_model_name, 
                 temperature=4.0, alpha=0.5):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        
        # 加载教师模型（大模型，冻结）
        self.teacher = AutoModelForCausalLM.from_pretrained(
            teacher_model_name,
            torch_dtype=torch.bfloat16,
            device_map="auto"
        )
        self.teacher.eval()
        for param in self.teacher.parameters():
            param.requires_grad = False
        
        # 加载学生模型（小模型，可训练）
        self.student = AutoModelForCausalLM.from_pretrained(
            student_model_name,
            torch_dtype=torch.bfloat16,
            device_map="auto"
        )
        self.student.train()
        
        # 蒸馏参数
        self.temperature = temperature  # 温度（平滑分布）
        self.alpha = alpha  # 蒸馏损失权重
        
        self.tokenizer = AutoTokenizer.from_pretrained(student_model_name)
    
    def distillation_loss(self, student_logits, teacher_logits, labels):
        """蒸馏损失 = 蒸馏损失 + 硬标签损失"""
        
        # 1. 蒸馏损失（软标签）
        # 用温度平滑教师的输出分布
        teacher_probs = F.softmax(
            teacher_logits / self.temperature, dim=-1
        )
        student_log_probs = F.log_softmax(
            student_logits / self.temperature, dim=-1
        )
        
        # KL散度：学生分布接近教师分布
        distill_loss = F.kl_div(
            student_log_probs, teacher_probs,
            reduction='batchmean'
        ) * (self.temperature ** 2)  # 温度补偿
        
        # 2. 硬标签损失（标准语言模型损失）
        ce_loss = F.cross_entropy(
            student_logits.view(-1, student_logits.size(-1)),
            labels.view(-1),
            ignore_index=-100
        )
        
        # 3. 组合损失
        loss = self.alpha * distill_loss + (1 - self.alpha) * ce_loss
        
        return loss
    
    def train_step(self, batch):
        """单步训练"""
        input_ids = batch["input_ids"].to(self.device)
        attention_mask = batch["attention_mask"].to(self.device)
        labels = batch["labels"].to(self.device)
        
        with torch.no_grad():
            teacher_outputs = self.teacher(
                input_ids=input_ids,
                attention_mask=attention_mask
            )
        
        student_outputs = self.student(
            input_ids=input_ids,
            attention_mask=attention_mask
        )
        
        loss = self.distillation_loss(
            student_outputs.logits,
            teacher_outputs.logits,
            labels
        )
        
        return loss

# 使用
distiller = KnowledgeDistillation(
    teacher_model_name="Qwen/Qwen2.5-72B-Instruct",
    student_model_name="Qwen/Qwen2.5-1.5B-Instruct",
    temperature=4.0,
    alpha=0.5
)

# 训练循环（简化）
optimizer = torch.optim.AdamW(distiller.student.parameters(), lr=5e-5)

for epoch in range(3):
    for batch in dataloader:
        loss = distiller.train_step(batch)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
        print(f"Loss: {loss.item():.4f}")

# 保存学生模型
distiller.student.save_pretrained("./distilled-model")
distiller.tokenizer.save_pretrained("./distilled-model")

9.2 剪枝+蒸馏+量化组合脚本

# compress_pipeline.py - 完整压缩流水线

import torch
import torch.nn as nn
from transformers import AutoModelForCausalLM, AutoTokenizer

class ModelCompressionPipeline:
    """模型压缩完整流水线"""
    
    def __init__(self, model_name):
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
    
    def step1_wanda_prune(self, calibration_data, pruning_ratio=0.3):
        """Step 1: Wanda剪枝"""
        print(f"=== Step 1: Wanda剪枝 ({pruning_ratio:.0%}) ===")
        
        activation_norms = {}
        
        # 收集激活值
        def hook_fn(name, module, input, output):
            x = input[0].float()
            activation_norms[name] = x.norm(p=2, dim=(0, 1))
        
        hooks = []
        for name, module in self.model.named_modules():
            if isinstance(module, nn.Linear):
                hooks.append(
                    module.register_forward_hook(
                        lambda m, i, o, n=name: hook_fn(n, m, i, o)
                    )
                )
        
        with torch.no_grad():
            for batch in calibration_data:
                self.model(batch.to(self.device))
        
        for hook in hooks:
            hook.remove()
        
        # 执行剪枝
        total_params = 0
        pruned_params = 0
        
        for name, module in self.model.named_modules():
            if isinstance(module, nn.Linear) and name in activation_norms:
                weight = module.weight.data.float()
                act_norm = activation_norms[name]
                
                score = weight.abs() * act_norm.unsqueeze(0)
                threshold = torch.quantile(score.flatten(), pruning_ratio)
                mask = score > threshold
                
                module.weight.data *= mask.float().to(module.weight.device)
                total_params += weight.numel()
                pruned_params += (mask == 0).sum().item()
        
        sparsity = pruned_params / total_params
        print(f"剪枝完成！稀疏度: {sparsity:.1%}")
        return sparsity
    
    def step2_distill(self, teacher_model, distill_data, 
                      epochs=3, temperature=4.0, alpha=0.5):
        """Step 2: 知识蒸馏"""
        print("=== Step 2: 知识蒸馏 ===")
        
        teacher_model.eval()
        self.model.train()
        
        optimizer = torch.optim.AdamW(self.model.parameters(), lr=5e-5)
        
        for epoch in range(epochs):
            total_loss = 0
            for batch in distill_data:
                input_ids = batch["input_ids"].to(self.device)
                attn_mask = batch["attention_mask"].to(self.device)
                labels = batch["labels"].to(self.device)
                
                with torch.no_grad():
                    teacher_logits = teacher_model(
                        input_ids=input_ids,
                        attention_mask=attn_mask
                    ).logits
                
                student_logits = self.model(
                    input_ids=input_ids,
                    attention_mask=attn_mask
                ).logits
                
                # 蒸馏损失
                teacher_probs = torch.softmax(
                    teacher_logits / temperature, dim=-1
                )
                student_log_probs = torch.log_softmax(
                    student_logits / temperature, dim=-1
                )
                distill_loss = torch.nn.functional.kl_div(
                    student_log_probs, teacher_probs,
                    reduction='batchmean'
                ) * (temperature ** 2)
                
                # 硬标签损失
                ce_loss = torch.nn.functional.cross_entropy(
                    student_logits.view(-1, student_logits.size(-1)),
                    labels.view(-1),
                    ignore_index=-100
                )
                
                loss = alpha * distill_loss + (1 - alpha) * ce_loss
                
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()
                total_loss += loss.item()
            
            print(f"Epoch {epoch+1}: Loss = {total_loss/len(distill_data):.4f}")
        
        print("蒸馏完成！")
    
    def step3_quantize(self, quantization_method="int4"):
        """Step 3: 量化（使用bitsandbytes）"""
        print(f"=== Step 3: 量化 ({quantization_method}) ===")
        
        try:
            from transformers import BitsAndBytesConfig
            import torch
            
            if quantization_method == "int4":
                quant_config = BitsAndBytesConfig(
                    load_in_4bit=True,
                    bnb_4bit_compute_dtype=torch.bfloat16,
                    bnb_4bit_quant_type="nf4",
                    bnb_4bit_use_double_quant=True
                )
            elif quantization_method == "int8":
                quant_config = BitsAndBytesConfig(load_in_8bit=True)
            
            # 重新加载模型时应用量化
            self.quantized_model = AutoModelForCausalLM.from_pretrained(
                self.model.config._name_or_path,
                quantization_config=quant_config,
                device_map="auto"
            )
            
            print(f"量化完成！")
            return self.quantized_model
            
        except ImportError:
            print("bitsandbytes未安装，跳过量化步骤")
            return self.model
    
    def compress(self, method="all", **kwargs):
        """完整压缩流水线"""
        
        if method == "quantize_only":
            return self.step3_quantize(kwargs.get("quant_method", "int4"))
        
        elif method == "prune_only":
            self.step1_wanda_prune(
                kwargs.get("calib_data"),
                kwargs.get("pruning_ratio", 0.3)
            )
            return self.model
        
        elif method == "all":
            # 完整三件套
            self.step1_wanda_prune(
                kwargs.get("calib_data"),
                kwargs.get("pruning_ratio", 0.3)
            )
            
            if "teacher" in kwargs and "distill_data" in kwargs:
                self.step2_distill(
                    kwargs["teacher"],
                    kwargs["distill_data"],
                    kwargs.get("epochs", 3)
                )
            
            return self.step3_quantize(kwargs.get("quant_method", "int4"))

# 使用流水线
pipeline = ModelCompressionPipeline("Qwen/Qwen2.5-7B-Instruct")

# 先剪枝30%
pipeline.step1_wanda_prune(
    calibration_data=your_calib_dataloader,
    pruning_ratio=0.3
)

# 再蒸馏
teacher = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-72B-Instruct",
    device_map="auto"
)
pipeline.step2_distill(
    teacher_model=teacher,
    distill_data=your_distill_dataloader,
    epochs=3
)

# 最后量化到INT4
quantized_model = pipeline.step3_quantize("int4")

# 保存
quantized_model.save_pretrained("./compressed-model")
pipeline.tokenizer.save_pretrained("./compressed-model")
print("模型压缩完成!")

9.3 压缩前后的性能对比

# benchmark.py - 压缩前后性能对比

import time
import torch

def benchmark_model(model, tokenizer, prompts, max_new_tokens=128):
    """基准测试：延迟和内存"""
    
    model.eval()
    
    # 显存统计
    if torch.cuda.is_available():
        torch.cuda.reset_peak_memory_stats()
        before_mem = torch.cuda.memory_allocated()
    
    latencies = []
    total_tokens = 0
    
    for prompt in prompts:
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        start = time.time()
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                do_sample=False
            )
        elapsed = time.time() - start
        
        generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
        token_count = outputs.shape[1] - inputs.input_ids.shape[1]
        
        latencies.append(elapsed)
        total_tokens += token_count
    
    # 显存统计
    if torch.cuda.is_available():
        peak_mem = torch.cuda.max_memory_allocated()
        model_mem = peak_mem - before_mem
    else:
        model_mem = 0
    
    # 结果
    avg_latency = sum(latencies) / len(latencies)
    avg_tokens_per_second = total_tokens / sum(latencies)
    avg_latency_per_token = avg_latency / max_new_tokens
    
    return {
        "avg_latency": f"{avg_latency:.2f}s",
        "latency_per_token": f"{avg_latency_per_token*1000:.0f}ms",
        "throughput": f"{avg_tokens_per_second:.1f} tokens/s",
        "peak_memory": f"{model_mem/1024**3:.1f} GB" if model_mem else "N/A"
    }

# 测试
test_prompts = [
    "解释什么是注意力机制",
    "用Python实现二叉搜索树",
    "写一首关于夏天的诗"
]

results_before = benchmark_model(original_model, tokenizer, test_prompts)
results_after = benchmark_model(compressed_model, tokenizer, test_prompts)

print("压缩前后对比：")
print(f"{'指标':<25} {'压缩前':<15} {'压缩后':<15}")
print("-" * 55)
for key in results_before:
    print(f"{key:<25} {results_before[key]:<15} {results_after[key]:<15}")

# 输出示例：
# 指标                      压缩前           压缩后
# -------------------------------------------------------
# avg_latency               3.21s           0.42s
# latency_per_token         25ms            3ms
# throughput                39.8 tokens/s   301.2 tokens/s
# peak_memory               14.2 GB         1.8 GB

# 压缩效果：
# 速度提升：7.6倍
# 显存减少：7.9倍

📌 总结

模型压缩核心要点：

1️⃣ 三驾马车
  知识蒸馏：大模型教小模型，学知识不学参数
  模型剪枝：砍掉冗余权重，保留关键结构
  模型量化：降低参数精度，减少体积

2️⃣ 蒸馏的四种方式
  黑盒蒸馏：用API输出做训练数据
  白盒蒸馏：对齐中间层表示
  上下文蒸馏：学推理链
  渐进式蒸馏：逐步缩小

3️⃣ 2026年的前沿
  DeepSeek R1蒸馏：7B模型在数学上击败GPT-4
  剪枝50%无需重新训练（SparseGPT/Wanda）
  Apple/Qualcomm端侧AI：3B INT4在手机上离线运行

4️⃣ 组合拳效果
  单独量化：2-4倍压缩
  蒸馏+量化：20倍压缩
  三件套全上：40-80倍压缩
  太空场景已验证：30W平台跑AI

5️⃣ 选型建议
  云端只量化：FP8/INT8足矣
  本地剪枝+量化：性价比最高
  端侧全上：蒸馏+剪枝+量化+低秩分解