岭回归（Ridge Regression），也称为L2正则化回归

Hali_Botebie · 2026-05-19 19:19:03 发布

岭回归（Ridge Regression），也称为L2正则化回归或蒂霍诺夫正则化（Tikhonov Regularization），是一种用于分析多重共线性数据（即自变量之间高度相关）的线性回归分析方法。

简单来说，它是标准线性回归（OLS）的一种改进版本，旨在解决标准线性回归在特定条件下“不稳定”或“过拟合”的问题。

以下是关于岭回归的核心要点解析：

在标准的线性回归中，我们的目标是最小化预测值与真实值之间的误差（通常使用均方误差，MSE）。其数学解通常涉及计算矩阵 $X^TX$ 的逆矩阵 $X^TX)^{-1}$ 。

然而，当出现以下情况时，标准线性回归会失效或表现不佳：

岭回归通过在损失函数中加入一个**惩罚项（Penalty Term）**来解决上述问题。

标准线性回归的损失函数：
$J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
（即：残差平方和）
岭回归的损失函数：
$J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2$
- 第一部分 $∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2$ ：依然是最小化预测误差。
- 第二部分 $λ∑βj2\lambda \sum \beta_j^2$ ：L2 正则化项。
  - $βj\beta_j$ 是回归系数。
  - $λ\lambda$ (Lambda) 是正则化参数，控制惩罚的力度。

岭回归的核心思想是限制系数的大小。

提高数值稳定性：在公式 $(XTX+λI)−1(X^TX + \lambda I)^{-1}$ 中，加入 $λI\lambda I$ （其中 $I$ 是单位矩阵， $λ>0\lambda > 0$ ）可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因——它确保了矩阵求逆的计算稳定性。
处理多重共线性：当特征高度相关时，岭回归能提供比标准回归更稳定的系数估计。
防止过拟合：通过惩罚大系数，降低了模型的复杂度，提高了模型在未知数据上的泛化能力。

Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.” ICML 2024.
作者使用岭回归的目的是：

计算稳定性：公式中的 $λ1I\lambda_1 I$ 确保矩阵 $E[xˉxˉT]+λ1IE[\bar{x}\bar{x}^T] + \lambda_1 I$ 总是可逆的，避免了计算错误。
抑制离群值：通过限制权重调整量 $δW∗\delta W^*$ 的大小，防止模型对某些极端数据点（离群值）过度反应。
优化量化表现：通过稳定地求解最优权重调整，使得量化后的模型误差最小化。