模型轻量化操作——剪枝

删除权重小于一定阈值的连接或者神经元节点得到更加稀疏的网络。

文章共27,139字 · 阅读需要大约91分钟

一键AI生成摘要，助你高效阅读

问答

氵文大师

3118人浏览 · 2023-09-04 00:05:10

氵文大师 · 2023-09-04 00:05:10 发布

1. 剪枝基本概念

1.1 什么是剪枝 Network Pruning

删除权重小于一定阈值的连接或者神经元节点得到更加稀疏的网络
在这里插入图片描述

1.2 剪枝的不同粒度

在这里插入图片描述

从单个神经元和连接到整个网络层
- 非结构化剪枝(需要特殊硬件支持) 权重级别(Fine-gained) sparsity 0-D
- 向量级别(介于二者之间) Sparsity 1-D
- 结构化剪枝(卷积核Kernel 特征图Featuremap) (不需要特殊硬件支持) 卷积核级别 Sparsity 2-D | 通道级别 Sparsity 3-D

1.3 模型剪枝

Dropout 类似结构化剪枝剪去神经元
DropConnect 类似非结构化剪枝 (剪去连接)

在这里插入图片描述

只是训练的时候用一下，测试的时候不会用的，所以不是剪枝的方法

1.3.2 权重的冗余性

我们之所以能够对模型进行剪枝，本质上还是网络中的一些参数是冗余的，我们删除一些并不会对网络造成很大的影响，所以才可以去剪枝。

卷积核滤波器的冗余性
在这里插入图片描述

[1] Shang W, Sohn K, Almeida D, et al. Understanding and improving convolutional neural networks via concatenated rectified linear units[C]//international conference on machine learning. PMLR, 2016: 2217-2225.

卷积核存在相位互补性，需要同时学习两个线性相关的变换(CReLU)

不同层的统计特性

假设卷积核为 $\phi$ ，我们在神经网络中的任一层任取一个卷积核 $\phi_j$ ，假设可以求一个 $\phi_i$ ，使得其内积最小(方向相反)，那么此时就得到一个新的向量:
$\bar{\phi_i} = \argmin_{\phi_j} <\phi_i, \phi_j>$

理想状态下， $\bar{\phi_i}$ 其实是和 $\phi_j$ 相反的向量，此时我们在该神经网络层中除了 $\phi_j$ 外剩下的卷积核中找一个与 $\bar{\phi_i}$ 相似度最小的 $\phi_i$ ，做内积
$\mu_i^{\phi} = <\phi_i, \bar{\phi_i}>$

画出 $\mu_i^{\phi}$ 分布的直方图

我们假设每一个 $\phi_i$ 都能找到一个和它计算相似度越小并且非常接近于-1的值，那么µ的峰值应该越接近于-1(距离0值越远)。如果越找不到该值，它应该越接近于0。从上图可以看出，越是网络浅层，统计相似度越低，表明越有相位互补性；相反越往深层，越难找到和 $\phi_i$ 相位相反的滤波器。

在这里插入图片描述
越是网络浅层，统计相似度越低，表明越有相位互补性

concatenated ReLU (CReLU)

$CR e LU (x) = co n c a t (R e LU (x), - R e LU (x))$
在这里插入图片描述

错误率降低, 也有可能是通道数提高了呀?

2. 非结构化剪枝

2.1 基本方法

根据连接的重要性判断是否裁剪掉连接
- 1.神经元重要性判别
- 2.去除神经元
- 3.微调
- 4.继续剪枝(判断是否回到1)
  
  重要性程度就是其 L1或者L2 范数

[1] Han S, Pool J, Tran J, et al. Learning both weights and connections for efficient neural network[J]. Advances in neural information processing systems, 2015, 28.

来看这片文章的例子：
在这里插入图片描述
AlexNet 为例，右图是剪去的参数和保留的参数的对比，可以看到剪枝剪去的主要是全连接层的参数

卷积层与全连接层敏感性

越往右上角越不敏感，全连接层冗余性更大
在这里插入图片描述

是否微调，L1/L2范数对比

剪枝后微调很重要，绿线和紫线对比
L1/L2 都可做重要性因子，黄线和绿线基本重合
在这里插入图片描述

剪枝前后的参数分布
在这里插入图片描述
可以这样理解? 峰值变多，多样性变多

2.2 恢复权重法

对有些样本不重要，但是对另一些样本很重要(错误剪去一些连接从而导致模型的性能无法恢复)

[1] Guo Y, Yao A, Chen Y. Dynamic network surgery for efficient dnns[J]. Advances in neural information processing systems, 2016, 29.

在这里插入图片描述
和之前一样，先进行剪枝，之后再恢复(图三中的绿色箭头)，对模型性能弥补有效

实现细节

实现一个掩膜矩阵 $T$ ，与权重矩阵大小相等

$h_k(W_j^{(i,j)}) = \left\{\begin{matrix} 0 & if \ a_k > |W_j^{(i,j)}| & \\ T_k^{(i,j)} & others & \\ 1 & if \ b_k < |W_j^{(i,j)}| & \\ \end{matrix}\right.$

每一个元素表示是否减掉对应连接，当等于1表示保留，等于0表示剪枝，掩码为0的部分不参与损失计算，但是参数值仍然需要更新

(问：不收敛怎么办)

基本方案对比( AlexNet 模型)
在这里插入图片描述
基本方法：4800K次迭代，9倍压缩率
本方法：700K次迭代，17倍压缩率，训练更快

3. 结构化剪枝（幅度）

3.1 基于权重大小的通道裁剪

基于权重的范数剪掉卷积核

[1] Li H, Kadav A, Durdanovic I, et al. Pruning filters for efficient convnets[J]. arXiv preprint arXiv:1608.08710, 2016.ICLR2017

在这里插入图片描述
计算卷积核的绝对值和，进行排序，剪掉和最小的kernel以及对应的特征图
$X_i$ , $X_{i+1}$ 和 $X_{i+2}$ 都是特征图
Kernel matrix 的共有 $n_i * n_{i+1}$ 个元素，每个元素是一个卷积核， $X_i$ 通道数是 $n_i$ ， $X_{i+1}$ 通道数是 $n_{i+1}$

同时裁剪多个卷积核与通道
在这里插入图片描述
重叠部分分别考虑即可

在这里插入图片描述
裁剪残差模块的通道，对应裁剪相同序号的恒等映射模块儿通道

实验结果

在这里插入图片描述
(b) 针对不同层的影响不同，比如最右边深蓝色虚线，剪枝到80%，依旧下降很少
© 剪枝之后retrain之后，部分层性能可以恢复，但是入黑色实线，性能无法恢复

最小幅度裁剪，随机幅度裁剪，最大幅度裁剪的不同
在这里插入图片描述
随机幅度裁剪与最小幅度裁剪效果相差不大，可以看出卷积核参数的冗余性

与特征图激活值裁剪方法比较

(a) 本文与 © 效果类似
(b) 效果比较差

L1 / L2 范数比较（与非结构化剪枝的结果差不多）

3.2 基于激活值的方法

基于激活的稀疏性，统计每一层的激活值为0的比例
Activated Percent of Zero

[1] Hu H, Peng R, Tai Y W, et al. Network trimming: A data-driven neuron pruning approach towards efficient deep architectures[J]. arXiv preprint arXiv:1607.03250, 2016.

$ApoZ_{c}^{(i)} = APoZ( O_{c}^{(i)} ) = \frac { \sum^{N}_{k} \sum^{M}_{j} f(O_{c,j}^{(i)} = 0) } { N \times M }$

$i$ 表示层， $c$ 表示通道， $N$ 表示用于统计的样本数， $M$ 表示输出空间维度(xy合起来)

在这里插入图片描述
在VGG16中，越到网络深层，有更大的冗余和更多的裁剪空间

裁剪流程与非结构化剪枝的流程一样，不同的是，这里不是裁一个神经元，而是裁整个通道
在这里插入图片描述

LeNet结果：微调时初始化权重很重要
在这里插入图片描述

VGG实验结果
在这里插入图片描述
单层裁剪结果：在不微调的情况下，即使裁剪了很多，模型效果也没有明显下降，证明了模型确实存在冗余现象

每个通道都可以建立一个 APoZ 值，说明APoZ变小了
在这里插入图片描述
APoZ 用来判断参数的有效性

VGG多层裁剪结果
在这里插入图片描述
裁剪后效果下降很多，需要多次迭代来恢复到原来的效果
CONV45-FC67-trim-3 的意思是裁剪 CONV4 | CONV5 | FC6 | FC7 这几个层

4. 结构化剪枝（稀疏权重篇）

正则化与稀疏约束
稀疏约束框架

4.1 正则化与稀疏约束

正则化，权重衰减(其实就是L1/L2的范数惩罚)

$\tilde{J}(\omega; X, y) = J(\omega; X, y) + \frac{\alpha}{2} || \omega||_{2} \\ \tilde{J}(\omega; X, y) = J(\omega; X, y) + \alpha || \omega||_{1}$

L1约束相对于L2约束能够产生更加稀疏的模型，使得 $\omega$ 其中一些参数会变成0，也就是LASSO问题，常用于同时选择和缩减参数，可以用来模型剪枝

利用这个思想，再加一项，也就是 SSL

Structured Sparsity Learning(简称SSL)
$E_{D}(W) + \lambda R(W) + \lambda_g \sum_{L}^{l=1} R_g(W^{(l)})$
$E_{D}(W)$ 是正常的损失项
$R (W)$ 是非结构化正则项
$R_g(W^{(l)})$ 是每一层的结构化正则项

$R_g(W^{(l)}) = \sum_{g=1}^{G} || W^{(g)} ||_g$ 一组 $W$ , Group Lasso

[1] Wen W, Wu C, Wang Y, et al. Learning structured sparsity in deep neural networks[J]. Advances in neural information processing systems, 2016, 29.

在这里插入图片描述

细粒度与粗粒度的稀疏化

Filter-wise(输出通道) 与 Channel-wise(输入通道)级别的稀疏化同时进行

$\sum_{L}^{l=1} \left ( \sum_{n_l=1}^{N_l} || W_{n_l,:,:,:}^{(l)} || \right ) + \sum_{L}^{l=1} \left ( \sum_{c_l=1}^{C_l} || W_{:, c_l,:,:}^{(l)} || \right )$

$N_l$ 表示输出通道数，每一组对应当前层某一个输出通道的所有相关卷积核
$C_l$ 表示输入通道数，每一组对应若干卷积核，用于对输入的所有通道进行卷积，产生一个通道的输出结果
以上两者会相互耦合

所以最终的优化目标：

$E_{D}(W) + \lambda_n \sum_{L}^{l=1} \left ( \sum_{n_l=1}^{N_l} || W_{n_l,:,:,:}^{(l)} || \right ) + \lambda_c \sum_{L}^{l=1} \left ( \sum_{c_l=1}^{C_l} || W_{:, c_l,:,:}^{(l)} || \right )$

The optimization target of learning shapes of filers becomes:

$E_{D}(W) + \lambda_s \sum_{l=1}^{L} \left ( \sum_{c_l=1}^{C_l} \sum_{m_l=1}^{M_l} \sum_{k_l=1}^{K_l} || W_{:,c_l,m_l,k_l}^{(l)} || \right )$

错误率比较：
在这里插入图片描述

剪枝后的卷积核可视化
在这里插入图片描述

MLP的稀疏化结果

在这里插入图片描述

AlexNet 稀疏化结果

在这里插入图片描述

会将卷积运算操作改为 GEneral Matrix Multiplication(GEMM)，而 row-wise 和 column-wise 分别是卷积核和特征图
在这里插入图片描述

在这里插入图片描述
前两行是训练稀疏模型
第三行是剪枝
后两行是稀疏剪枝后再训练的结果

是一个基于学习的模型剪枝策略，其实并没有剪枝? 只是让一部分参数为0?

4. 结构化剪枝（稀疏因子篇）

基于BN缩放因子的方法
基于输出缩放因子的方法

4.1 基于BN缩放因子的稀疏性

Liu Z, Li J, Shen Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2736-2744.

Network Slimming，基于BN中的缩放因子 $\gamma$ 来对不重要的通道进行裁剪
在这里插入图片描述
不要求每个通道中的元素都有一个较小的激活值，约束更弱

在这里插入图片描述
优化目标：
$\sum_{(x,y)} \bm{l}(f(x, W), y) + \lambda \sum_{\gamma\in \Gamma} g(\gamma)$

其中 $\gamma$ 是BN中的 $\gamma$ :
$\hat{z} = \frac{ z_{in} - \mu_{B} } { \sqrt{ \sigma_{B}^2 + \epsilon } }; \ \ \ \ z_{out} = \gamma \hat{z} + \beta$

不同模型的裁剪结果
在这里插入图片描述
VGGNet中 $\gamma=10^{-4}$
DenseNet | ResNet 中 $\gamma=10^{-5}$

剪枝后前后参数对比
在这里插入图片描述

不同比例裁剪稀疏下的精度变换(DenseNet40, CIFAR10, $\lambda=10^{-5}$ )

在这里插入图片描述

蓝色线是在红色线的基础上进行裁剪的，可以看到裁剪后retrain，可以有更大的裁剪比例
存在明显的阈值，低于该阈值裁剪影响不大，但是高于该阈值也无法恢复性能
Trained with Sparsity 是啥?

不同稀疏权重下的尺度系数分布与变化趋势(VGGNet)
在这里插入图片描述
纵轴是 Scaling factor value 也就是 $\gamma$ ，显然，惩罚项系数 $\lambda$ 越大，最终的 $\gamma$ 越小

第11层，训练过程中尺度的变换，越亮值越大
在这里插入图片描述

4.2 基于输出缩放因子的方法

比上一个方法更加通用，可以用到多种模型中

Sparse Structure Selection，约束输出稀疏(可应用于通道，分组，残差块) 简称SSS

Huang Z, Wang N. Data-driven sparse structure selection for deep neural networks[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 304-320.

在这里插入图片描述
每一个 $F_i$ 都有一个系数 $\lambda_i$ ，优化目标：
$\min_{w, \lambda} \frac{1}{N} \sum_{i=1}^{N} L\left( y_i, C \left (x_i, w, \lambda \right ) \right) + R(w) + R_s(\lambda)$

$R_s(\lambda) = \gamma||\lambda||_{1}$

实验结果:

VGG（基于通道）
在这里插入图片描述
SSS == Sparse Structure Selection

ResNet（基于残差块）

在这里插入图片描述
还需要修改训练模型，添加可学习参数，感觉不是很好用

向图片左下角表示更好
在这里插入图片描述
与SSL对比：SSS 不需要 finetune？

4. 结构化剪枝（重建篇）

基本方法
通道选择方法改进

Channel Pruning 框架

He Y, Zhang X, Sun J. Channel pruning for accelerating very deep neural networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 1389-1397.

在这里插入图片描述

直接裁剪输入通道B，维持输出通道C的精度不损失

根据输入特征图各种通道对输出贡献的大小来进行裁剪

通道从 $c$ 剪枝到 $c^{'}$ ，剪枝之后，输出特征图 $Y$ 的信息能够维持

$\arg \min_{\beta, W} \frac{1}{N} || Y - \sum_{i=1}^{c} || \beta_i X_i W_i^T||_F^2 + \lambda || \beta ||_1$
其中，
$||\beta||_0 \le c', \ \ \ \forall i || W_i ||_F = 1$

采集特征图 $\times c\times k_h\times k_w$
对应Kernel $n\times c\times k_h\times k_w$
得到 $N\times n$ 的输出 $Y$
$N$ 表示样本， $n$ 表示输出通道数， $X$ 维度 $N\times k_h k_w$ ， $W$ 维度 $n\times k_h k_w$

在这里插入图片描述

通道选择改进

之前基于通道重建误差，没有考虑模型语义信息，没有考虑到真正对任务的影响，只是考虑了数值上的重建误差

通过在模型中间增加分支来辅助模型训练

Zhuang Z, Tan M, Zhuang B, et al. Discrimination-aware channel pruning for deep neural networks[J]. Advances in neural information processing systems, 2018, 31.

在这里插入图片描述
分P段进行剪枝，在各个阶段添加分支损失
首先是特征图重建loss $L_M$ ，辅助分类loss $L_S^P$ ，和最终的分类loss $L_f$