为什么正规方程法在工作中使用较少

三味书屋wk · 2026-04-03 07:25:02 发布

在教科书或入门课程中，正规方程法（Normal Equation）通常被作为线性回归的“完美解析解”首先被介绍，它的公式非常优雅：

$θ=(XTX)−1XTy\theta = (X^T X)^{-1} X^T y$

但在实际工作和工业界中，我们绝大多数情况下会选择**梯度下降法（Gradient Descent）**及其变种（如 SGD, Adam），而极少使用正规方程法。这主要由以下几个现实原因决定：

正规方程的核心是计算矩阵 $X^T X$ 的逆矩阵： $X^T X)^{-1}$ 。

矩阵求逆的计算时间复杂度大约是 $O(n^3)$ （ $n$ 为特征的数量）。
在实际工作中： 如果你的特征只有几十个或几百个，计算会瞬间完成。但现代机器学习任务中，特征数量 $n$ 经常是几万、几十万甚至上千万（例如自然语言处理中的词袋模型、推荐系统中的用户标签）。如果 $n = 100, 000$ ，那么 $n^3$ 就是一个天文数字，即使是超级计算机也要算很久，甚至直接内存溢出（OOM）。
相比之下： 梯度下降法的复杂度大约是 $\cdot n)$ （ $k$ 为迭代次数），当 $n$ 很大时，梯度下降的效率远超正规方程。

正规方程法是“特化”的： 它仅仅适用于线性回归（以及带有 L2 正则化的岭回归等极少数模型）。
梯度下降法是“通用”的： 实际工作中，我们很少只跑一个简单的线性回归。我们通常要面对逻辑回归（Logistic Regression）、支持向量机（SVM）、树模型以及各种复杂的深度神经网络（Deep Learning）。正规方程对这些模型无能为力，而梯度下降法可以作为底层优化器“通吃”几乎所有基于损失函数的机器学习模型。为了工程代码的复用性和技术栈的统一，工业界更倾向于一套成熟的梯度下降框架。

在某些情况下，矩阵 $X^T X$ 是不可逆的（Singular Matrix），此时正规方程直接失效。这通常发生在以下两种情况：

特征数多于样本数（ $n > m$ ）： 比如在医疗基因数据中，只有 100 个病人的样本（ $m = 100$ ），但每个病人测了 10,000 个基因特征（ $n = 10000$ ）。
特征之间存在高度共线性（多重共线性）： 比如特征组里同时包含了“以米为单位的长度”和“以厘米为单位的长度”，这两个特征完全线性相关。
虽然可以通过计算伪逆（Pseudo-inverse）或加入正则化（Ridge Regression）来解决不可逆的问题，但这增加了额外的处理成本。

正规方程是批量处理（Batch）： 它要求把所有历史数据 $X$ 一次性加载到内存中进行矩阵运算。如果明天公司又新收集了 10 万条数据，你必须把旧数据和新数据拼在一起，从头再算一次整个矩阵的逆。
梯度下降支持在线更新（Online Learning）： 在工业推荐系统或广告点击预测中，数据是源源不断流进来的。使用随机梯度下降（SGD），模型可以利用新进来的这一小批数据，在原有参数 $θ\theta$ 的基础上进行微调（Update），而不需要触碰过去的海量历史数据，这在工程上具有极其巨大的优势。