【TJU】研究生应用统计学课程笔记（9）——第四章线性模型（4.2 多元线性回归分析）

若叶€枫璨

388人浏览 · 2026-05-05 21:27:11

若叶€枫璨 · 2026-05-05 21:27:11 发布

【TJU】研究生应用统计学课程笔记（9）——第四章线性模型（4.2 多元线性回归分析）

4.2 多元线性回归分析

4.2 多元线性回归分析

1️⃣ 多元线性回归模型

假设随机变量 $y$ 与 $k$ 个变量 $x_1, \cdots, x_k$ 之间存在下面的线性关系： $\beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \epsilon,$

其中 $\epsilon$ 是一个随机变量，满足 $E\epsilon = 0, D\epsilon = \sigma^2$ （ $\sigma^2$ 为未知常数），称为随机误差， $\beta_0, \beta_1, \cdots, \beta_k$ 是未知参数。设有 $n$ 组独立的观测值 $(y_i, x_{i1} \cdots x_{ik}), i = 1, \cdots, n$ ，则有： $\begin{cases} y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_k x_{1k} + \epsilon_1; \\ \cdots \cdots \\ y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_k x_{nk} + \epsilon_n, \end{cases}$

写成矩阵形式为： $X\beta + \epsilon$

其中： $\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} , \quad X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1k} \\ 1 & x_{21} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{nk} \end{pmatrix} , \quad \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} , \quad \epsilon = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}$

这里 $Y$ 表示随机变量 $y$ 的 $n$ 次观测值组成的列向量，称为观测向量； $X$ 的元素是 $k$ 个自变量 $x_1, \cdots, x_k$ 在 $n$ 次观测中的取值； $\beta$ 称为未知参数向量； $\epsilon$ 称为随机误差向量，满足： $E(\epsilon) = 0, \quad Cov(\epsilon, \epsilon) = \Sigma.$

称模型 $X\beta + \epsilon, \quad E(\epsilon) = 0, \quad \text{Cov}(\epsilon, \epsilon) = \Sigma$

为 $n$ 元线性回归模型。

若 $X\beta + \epsilon, \quad \epsilon \sim N(\mathbf{0}, \sigma^2 I_n)$ ，则称为多元正态线性回归模型。

2️⃣ 参数 $\beta$ 的统计

仍采用最小二乘法，求误差 $\epsilon_i = y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})$ 的平方和。

令 $Q(\beta) = \sum_{i=1}^{n} [y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})]^2$ 达到最小，对 $Q(\beta)$ 分别关于 $\beta_0, \beta_1, \cdots, \beta_k$ 求偏导数，并令它们为 0，即 $\frac{\partial Q}{\partial \beta_j} = 0, j = 0, 1, \cdots, k,$ $\begin{cases} \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})) = 0; \\ \cdots \cdots \\ \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})) x_{ij} = 0; \end{cases}$

称为正规方程组。

若用矩阵表示为： $Q(\beta) = (Y - X\beta)'(Y - X\beta) = Y'Y - 2\beta'X'Y + \beta'X'X\beta \\ \frac{\partial Q}{\partial \beta} = -2X'Y + 2X'X\beta = 0$

所以： $X'X\beta = X'Y$

若 $X$ 是列满秩矩阵， $X'X)^{-1}$ 存在，则： $\hat{\beta} = (X'X)^{-1}X'Y$

线性方程组有唯一解 $\Leftrightarrow X'X$ 是列满秩的

对于正规方程组的解与 $\beta$ 的最小二乘估计有以下关系：

定理：

(1) 正规方程组的解必是 $\beta$ 的最小二乘估计；
(2) $\beta$ 的最小二乘估计必是正规方程组的解。

因而 $\hat{\beta}$ 即为 $\beta$ 的最小二乘估计，记 $\hat{\beta} = (\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_k)$ ，则： $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k$ 称为多元线性回归方程。

3️⃣ 参数 $\sigma^2$ 的估计

用残差向量 $\hat{\epsilon} = Y - X\hat{\beta}$ 来构造方差 $\sigma^2$ 的估计。令

$\hat{\sigma}^2 = \frac{Q_e}{n - k - 1} = \frac{\hat{\epsilon}' \hat{\epsilon}}{n - k - 1}$

称为剩余方差，则有 $E(\hat{\sigma}^2) = \sigma^2$ （即 $\hat{\sigma}^2$ 是 $\sigma^2$ 的无偏估计）。

性质：对于多元线性回归模型：

（1） $E(\hat{\beta}) = \beta, E(\hat{\sigma}^2) = \sigma^2,$ 即 $\hat{\beta}$ 与 $\hat{\sigma}^2$ 分别是 $\beta$ 和 $\sigma^2$ 的无偏估计。
（2） $\hat{\beta} \sim N(\beta, \sigma^2(X'X)^{-1}), \frac{(n-k-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-k-1)$ 且二者相互独立。
（3） $\text{cov}(\hat{\beta}, \hat{\beta}) = \sigma^2(X'X)^{-1}$ , 表明各个分量在一般情况下是不独立的。
（4）若 $\epsilon \sim N(\mathbf{0}, \sigma^2 I_n)$ , 则 $\beta$ 的最小二乘估计 $\hat{\beta}$ 也是 $\beta$ 的最大似然估计， $\sigma^2$ 的最大似然估计为 $\frac{Q_e}{n}$ 。

4️⃣ 线性回归模型的中心化处理

设有 $n$ 组独立的观测值 $(y_i, x_{i1} \cdots x_{ik}), i = 1, \cdots, n$ 和 $(\bar{x}_1, \cdots, \bar{x}_k; \bar{y})$

$\begin{cases} y_1 - \bar{y} = \widetilde{\beta}_0 + \beta_1(x_{11} - \bar{x}_1) + \cdots + \beta_k(x_{1k} - \bar{x}_k) + \epsilon_1, \\ \cdots \cdots \\ y_n - \bar{y} = \widetilde{\beta}_0 + \beta_1(x_{n1} - \bar{x}_1) + \cdots + \beta_k(x_{nk} - \bar{x}_k) + \epsilon_n, \end{cases}$

其中 $\widetilde{\beta}_0 := \beta_0 + \beta_1\bar{x}_1 + \cdots + \beta_k\bar{x}_k - \bar{y}$ 。

矩阵表示：

$\widetilde{Y} = \begin{pmatrix} y_1 - \bar{y} \\ y_2 - \bar{y} \\ \vdots \\ y_n - \bar{y} \end{pmatrix}, \quad \widetilde{X} = \begin{pmatrix} x_{11} - \bar{x}_1 & \cdots & x_{1k} - \bar{x}_k \\ x_{21} - \bar{x}_1 & \cdots & x_{2k} - \bar{x}_k \\ \vdots & \vdots & \vdots \\ x_{n1} - \bar{x}_1 & \cdots & x_{nk} - \bar{x}_k \end{pmatrix}, \quad \beta_1 = \begin{pmatrix} \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \\ \epsilon = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}, \quad \widetilde{Y} = (\mathbf{1} \quad \widetilde{X}) \begin{pmatrix} \widetilde{\beta}_0 \\ \beta_1 \end{pmatrix} + \epsilon$

其中： $\mathbf{1} = (1, \cdots, 1)', \quad \mathbf{1}'\widetilde{X} = \mathbf{0}, \quad \mathbf{1}'\widetilde{Y} = \mathbf{0}$

中心化线性回归模型的最小二乘估计： $\begin{pmatrix} \hat{\tilde{\beta}}_0 \\ \hat{\beta}_1 \end{pmatrix} = [(\mathbf{1} \quad \widetilde{X})' (\mathbf{1} \quad \widetilde{X})]^{-1} (\mathbf{1} \quad \widetilde{X})' \widetilde{Y} = \begin{pmatrix} \frac{1}{n} & \mathbf{0} \\ \mathbf{0} & (\widetilde{X}'\widetilde{X})^{-1} \end{pmatrix} \begin{pmatrix} \mathbf{0} \\ \widetilde{X}'\widetilde{Y} \end{pmatrix}$ $\therefore \begin{cases} \hat{\tilde{\beta}}_0 = 0 \\ \hat{\beta}_1 = (\widetilde{X}'\widetilde{X})^{-1} \widetilde{X}'\widetilde{Y} \end{cases}$

所以可只考虑： $\widetilde{Y} = \widetilde{X}\beta_1 + \epsilon$

参数意义说明：

$\beta_0$ 可看作与因变量的度量起点有关；
$\beta_j$ 则反映了 $y$ 随自变量 $x_j$ 的变化的大小。

5️⃣ 回归方程的显著性检验

提出假设：

$H_0 : \beta_1 = \cdots = \beta_k = 0$

(1) 若接受 $H_0$ ：则表明诸变量与 $y$ 之间确实无线性相关关系；
(2) 若拒绝 $H_0$ ：则认为回归方程是有意义的。但是这个结论只说明至少有一个 $\beta_i \neq 0$ ，也就是说在所选自变量中，至少有一部分对 $y$ 来说是重要的，但不表示所有自变量都是重要的。

1. 平方和分解： $\hat{Y} = X\hat{\beta}$ 为 $n$ 个试验点处 $Y$ 的回归值，总的偏差平方和定义为： $S_{yy} = \sum_{i=1}^{n}(y_i - \bar{y})^2 = (Y - \mathbf{1}\bar{y})'(Y - \mathbf{1}\bar{y})$ $\|Y - \mathbf{1}\bar{y}\|^2 = \|Y - \hat{Y} + \hat{Y} - \mathbf{1}\bar{y}\|^2$ $\|Y - \hat{Y}\|^2 + \|\hat{Y} - \mathbf{1}\bar{y}\|^2 + 2(Y - \hat{Y})'(\hat{Y} - \mathbf{1}\bar{y})$

正交性证明（证明交叉项为 0）： $\hat{Y})'(\hat{Y} - \mathbf{1}\bar{y}) = (Y - \hat{Y})'\hat{Y} - (Y - \hat{y})'\mathbf{1}\bar{y}$ $\hat{Y})'\mathbf{1}\bar{y}$ $\hat{Y})'\mathbf{1}\bar{y} = 0$

核心结论： $S_{yy} = \|Y - \hat{Y}\|^2 + \|\hat{Y} - \mathbf{1}\bar{y}\|^2 = Q_e + U$

$Q_e$ ：残差平方和， $U$ ：回归平方和。若 $\gg Q_e$ 则说明回归方程是显著的

2. 构造统计量：

(1) $F$ 统计量

当 $\epsilon \sim N(0, \sigma^2 I_n)$ 时： $\frac{Q_e}{\sigma^2} \sim \chi^2(n - k - 1)$ $\frac{S_{yy}}{\sigma^2} \overset{H_0}{\sim} \chi^2(n - 1)$

已知： $S_{yy} = Q_e + U, \quad Q_e = Y'AY, \quad r(A) = n - k - 1$

由 Cochran 分解定理可证明 $\frac{U}{\sigma^2} \overset{H_0}{\sim} \chi^2(k)$ ， $Q_e$ 与 $U$ 相互独立，则选取： $\frac{U/k}{Q_e/(n - k - 1)} \sim F(k, n - k - 1)$

对给定的显著性水平 $\alpha$ ，拒绝域 $W$ 为： $\{F > F_{1-\alpha}(k, n - k - 1)\}$

(2) $R^2 = \frac{U}{S_{yy}}$ ，称 $R^2$ 为全相关系数。

它刻画了全体自变量 $x_1, \dots, x_k$ 对于因变量 $y$ 的线性相关程度。 $R^2$ 越大，越接近于 1，说明上述线性相关程度越显著， $R^2$ 可作为衡量回归方程总效果的一个数量指标。

注： $\frac{n-k-1}{k} \frac{R^2}{1-R^2}$ ，所以 $F$ 检验与 $R^2$ 检验是等价的。

7️⃣ 回归系数的显著性检验

检验 $x_i$ 对 $y$ 的影响是否显著，等价于检验回归系数 $H_{0i} : \beta_i = 0$ ：

(1) 若接受 $H_{0i}$ ：则表明 $x_i$ 对 $y$ 的影响相对于整个模型来说比较小；
(2) 若拒绝 $H_{0i}$ ：则表明 $x_i$ 对 $y$ 确有一定的影响，称 $x_i$ 为显著因子。

当 $\epsilon \sim N(0, \sigma^2 I_n)$ ，若记 $S = (c_{ij}) = (X'X)^{-1}$ ，则由性质知： $\hat{\beta}_i \sim N(\beta_i, \sigma^2 c_{ii})$ 且 $\hat{\beta}_i$ 与 $Q_e$ 相互独立，其中 $c_{ii}$ 表示矩阵 $S$ 的第 $i$ 个对角元。

1. T 检验：选取 $\frac{\hat{\beta}_i}{\sqrt{c_{ii}}} \Big/ \sqrt{\frac{Q_e}{n - k - 1}} \overset{H_{0i}}{\sim} t(n - k - 1),$

对给定的显著性水平 $\alpha$ ，拒绝域为： $\{ |t| > t_{1-\alpha/2}(n - k - 1) \}$

2. F 检验：选取 $\frac{\hat{\beta}_i^2}{c_{ii}} \Big/ \frac{Q_e}{n - k - 1} \overset{H_{0i}}{\sim} F(1, n - k - 1)$

对给定的显著性水平 $\alpha$ ，拒绝域为： $\{ f > F_{1-\alpha}(1, n - k - 1) \}$

8️⃣ 偏回归平方和

偏回归平方和：自变量对 $y$ 的影响，是指从回归方程剔除了这个自变量后所造成的影响，称回归平方和的减少部分为 $y$ 对这个自变量的偏回归平方和。若在 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k$ 中剔除自变量 $x_i$ ，不能简单地抹去这一项而得到： $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_{i-1} x_{i-1} + \hat{\beta}_{i+1} x_{i+1} + \cdots + \hat{\beta}_k x_k,$

而应该重新估计回归系数，建立新的回归方程： $\hat{y}^* = \hat{\beta}_0^* + \hat{\beta}_1^* x_1 + \cdots + \hat{\beta}_{i-1}^* x_{i-1} + \hat{\beta}_{i+1}^* x_{i+1} + \cdots + \hat{\beta}_k^* x_k.$

一般地 $\hat{\beta}_j^* \neq \hat{\beta}_j$ ，可以证明 $\hat{\beta}_j^*$ 与 $\hat{\beta}_j$ 之间有以下关系： $\hat{\beta}_j^* = \hat{\beta}_j - \frac{c_{ij}}{c_{ii}}\hat{\beta}_i, \quad j \neq i, \quad \hat{\beta}_0^* = \bar{y} - \sum_{j \neq i} \hat{\beta}_j^* \bar{x}_j$

其中 $c_{ij}$ 为 $S^{-1} = (X'X)^{-1}$ 的元素。

注：

（1）回归系数显著性检验的 $F$ 统计量的分子即为偏回归平方和。偏回归平方和越大，此变量对 $y$ 的影响越显著。变量剔除原则：

（2）得到回归方程后，计算每个变量的偏回归平方和。对于偏回归平方和最小的变量，如果其相应的回归系数检验又不显著，可将此变量剔除。

9️⃣ R语言例题

例 4.8 某种水泥在凝固时放出的热量 $y$ (cal/g)，与水泥中下列 4 种化学成分有关：

$x_1$ ： $3\text{CaO} \cdot \text{Al}_2\text{O}_3$ 的成分 (%) ；
$x_2$ ： $3\text{CaO} \cdot \text{SiO}_2$ 的成分 (%) ；
$x_3$ ： $4\text{CaO} \cdot \text{Al}_2\text{O}_3 \cdot \text{Fe}_2\text{O}_3$ 的成分 (%) ；
$x_4$ ： $2\text{CaO} \cdot \text{SiO}_2$ 的成分 (%) 。

现记录了 13 组观测数据，列在表 4.3 中。求 $y$ 关于这些自变量 $x_1, x_2, x_3, x_4$ 的线性回归模型： $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \hat{\beta}_3 x_3 + \hat{\beta}_4 x_4$

> heat

Call:
lm(formula = y ~ x1 + x2 + x3 + x4)

Coefficients:
(intercept)      x1       x2       x3       x4
62.4054          1.5511   0.5102   0.1019   -0.1441

在这里插入图片描述

从上图可以看出，自变量 ( $x_1, x_2, x_3, x_4$ ) 整体与 $y$ 之间有很强的线性关系，但是 $y$ 与每一个自变量的线性相关性却不强。

仔细研究 4 个自变量，不难发现它们的化学成分有紧密联系：都含有 CaO； $x_1, x_2$ 所含的成分与 $x_3, x_4$ 差不多。考虑到 $x_1, x_2$ 系数的 $p$ 值较小，它们与 $y$ 的线性相关关系更强，如果在建模时剔除 $x_3, x_4$ ，也许会有较好的结果。

> summary( lm( formula = y ~ x1 + x2 ) )

Call:
lm( formula = y ~ x1 + x2 )

在这里插入图片描述

🔟 “最优”回归方程的选择

最优回归方程：如回归方程中包含所有对 $y$ 有显著影响的自变量，不包含对 $y$ 影响不显著的自变量，同时在同类方程中残差平方和 $Q_e$ 达到最小，则称此回归方程为最优的。

(1) 全部比较法：从所有可能的自变量组合的回归方程中选择最优者。

注：总可找到最优方程；但计算量大。

(2) 只出不进法：从包含全部自变量的回归方程中逐个剔除不显著的自变量，直到回归方程中所含自变量全部都是显著的为止。首先考虑含所有自变量的回归方程，剔除不显著自变量中偏回归平方和最小的，再对其中的每个自变量进行显著性检验，继续剔除，直到所有自变量都显著。

注：每剔除一次自变量就得重新计算回归系数。考虑自变量不多时，不显著自变量不多时，可采用；不显著自变量较多时，计算量大。

(3) 只进不出法：从一个自变量开始，把显著的自变量逐个引入回归方程，直到在余下的自变量中选出一个与已引入的自变量一起组成回归方程有最大偏回归平方和的自变量，至经检验为不显著，因而不被引入时为止。

注：计算量少，但不一定能得到最优方程。由于自变量间的相关关系，引入新的自变量后，使原来引入的自变量成为不显著的。

(4) 逐步回归法：综合方法(2)、(3)，将自变量按其对 $y$ 的影响一个一个引入，同时每引入一个新的自变量，即对原已引入的自变量逐个检验，将不显著的剔除，直到回归方程再也不能引入新的自变量，同时也不能剔除任一自变量为止。

注：有计算技巧，计算量相对较小，有较好的计算程序。

1️⃣1️⃣ 利用回归方程进行预测

当给定 $(x_{01}, \dots, x_{0k})'$ 时， $\bar{x} = (\bar{x}_1, \dots, \bar{x}_k)'$ 表示各自变量在已进行的 $n$ 次试验中的平均值向量。

1. 点预测
$y_0 = \hat{\beta}_0 + \hat{\beta}_1 x_{01} + \dots + \hat{\beta}_k x_{0k}$

2. 区间预测

$P\{ |\hat{y}_0 - y_0| < \delta(x_0) \} = 1 - \alpha$

$y_0$ 的置信水平为 $\alpha$ 的预测区间为 $(\hat{y}_0 - \delta(x_0), \hat{y}_0 + \delta(x_0))$ ，其中： $\delta(x_0) = \hat{\sigma} t_{1-\frac{\alpha}{2}}(n - k - 1) \sqrt{1 + \frac{1}{n} + (x_0 - \bar{x})' (\widetilde{X}' \widetilde{X})^{-1} (x_0 - \bar{x})}$

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从Prompt到Skill：AI软件工程的范式跃迁

AtomGit开源社区

质性研究导论与方法论（二）：质性研究设计不再迷茫，结构、互动与方法论协同性

质性研究设计常被认为缺乏量化研究的标准化流程，但其核心在于灵活性与内在逻辑的协同性。文章指出质性研究并非"无结构"，而是由研究问题、哲学假设、方法取向等要素相互关联构成动态框架。关键特征包括：1）互动式设计允许研究问题随数据收集演进；2）方法论协同性确保研究目的、方法与分析策略高度一致；3）研究者反思性贯穿全程。文章还提出AI工具可辅助检查设计逻辑、优化访谈提纲及同步数据分析。