岭回归(Ridge Regression),也称为L2正则化回归蒂霍诺夫正则化(Tikhonov Regularization),是一种用于分析多重共线性数据(即自变量之间高度相关)的线性回归分析方法。

简单来说,它是标准线性回归(OLS)的一种改进版本,旨在解决标准线性回归在特定条件下“不稳定”或“过拟合”的问题。

以下是关于岭回归的核心要点解析:

1. 核心问题:为什么要用岭回归?

在标准的线性回归中,我们的目标是最小化预测值与真实值之间的误差(通常使用均方误差,MSE)。其数学解通常涉及计算矩阵 XTXX^TXXTX 的逆矩阵 (XTX)−1(X^TX)^{-1}(XTX)1

然而,当出现以下情况时,标准线性回归会失效或表现不佳:

  • 多重共线性(Multicollinearity):特征(自变量)之间存在高度相关性。
  • 特征数量多于样本数量:矩阵 XTXX^TXXTX 可能不可逆(奇异矩阵),导致无法求解。
  • 过拟合(Overfitting):模型为了拟合训练数据中的噪声,导致系数(weights)变得极大且不稳定。

2. 岭回归的解决方案:L2 正则化

岭回归通过在损失函数中加入一个**惩罚项(Penalty Term)**来解决上述问题。

  • 标准线性回归的损失函数
    J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 J(β)=i=1n(yiy^i)2
    (即:残差平方和)

  • 岭回归的损失函数
    J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 J(β)=i=1n(yiy^i)2+λj=1pβj2

    • 第一部分 ∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2(yiy^i)2:依然是最小化预测误差。
    • 第二部分 λ∑βj2\lambda \sum \beta_j^2λβj2L2 正则化项
      • βj\beta_jβj 是回归系数。
      • λ\lambdaλ (Lambda) 是正则化参数,控制惩罚的力度。

3. 关键机制:系数收缩(Shrinkage)

岭回归的核心思想是限制系数的大小

  • 通过最小化“误差 + 系数平方和”,算法会倾向于选择较小的系数值。
  • 如果 λ=0\lambda = 0λ=0,岭回归退化为标准线性回归。
  • 如果 λ\lambdaλ 很大,系数会被强烈压缩,接近于 0(但通常不会正好等于 0,这是它与 L1 正则化/Lasso 的主要区别)。

4. 岭回归的主要优点

  1. 提高数值稳定性:在公式 (XTX+λI)−1(X^TX + \lambda I)^{-1}(XTX+λI)1 中,加入 λI\lambda IλI(其中 III 是单位矩阵,λ>0\lambda > 0λ>0)可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因——它确保了矩阵求逆的计算稳定性。
  2. 处理多重共线性:当特征高度相关时,岭回归能提供比标准回归更稳定的系数估计。
  3. 防止过拟合:通过惩罚大系数,降低了模型的复杂度,提高了模型在未知数据上的泛化能力。

5. 岭回归 vs. Lasso (L1 正则化)

特性 岭回归 (Ridge, L2) Lasso (L1)
惩罚项 系数的平方和 (∑β2\sum \beta^2β2) 系数的绝对值之和 ($\sum
系数变化 系数缩小,趋向于 0 但不等于 0 可能将某些系数直接压缩为 0
特征选择 保留所有特征,只是权重变小 可以进行特征选择(稀疏解)
适用场景 所有特征都重要,或存在多重共线性 希望剔除无关特征,简化模型

6. 结合(ERQ 论文)

Zhang, K., et al. “ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.” ICML 2024.
作者使用岭回归的目的是:

  1. 计算稳定性:公式中的 λ1I\lambda_1 Iλ1I 确保矩阵 E[xˉxˉT]+λ1IE[\bar{x}\bar{x}^T] + \lambda_1 IE[xˉxˉT]+λ1I 总是可逆的,避免了计算错误。
  2. 抑制离群值:通过限制权重调整量 δW∗\delta W^*δW 的大小,防止模型对某些极端数据点(离群值)过度反应。
  3. 优化量化表现:通过稳定地求解最优权重调整,使得量化后的模型误差最小化。

总结:岭回归是一种通过“牺牲少量偏差”来大幅降低“方差”,从而获得更稳定、更可靠预测模型的统计技术。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐