【TJU】研究生应用统计学课程笔记(9)——第四章 线性模型(4.2 多元线性回归分析)
【TJU】研究生应用统计学课程笔记(9)——第四章 线性模型(4.2 多元线性回归分析)
4.2 多元线性回归分析
1️⃣ 多元线性回归模型
假设随机变量 y y y 与 k k k 个变量 x 1 , ⋯ , x k x_1, \cdots, x_k x1,⋯,xk 之间存在下面的线性关系: Y = β 0 + β 1 x 1 + ⋯ + β k x k + ϵ , Y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \epsilon, Y=β0+β1x1+⋯+βkxk+ϵ,
其中 ϵ \epsilon ϵ 是一个随机变量,满足 E ϵ = 0 , D ϵ = σ 2 E\epsilon = 0, D\epsilon = \sigma^2 Eϵ=0,Dϵ=σ2( σ 2 \sigma^2 σ2 为未知常数),称为随机误差, β 0 , β 1 , ⋯ , β k \beta_0, \beta_1, \cdots, \beta_k β0,β1,⋯,βk 是未知参数。设有 n n n 组独立的观测值 ( y i , x i 1 ⋯ x i k ) , i = 1 , ⋯ , n (y_i, x_{i1} \cdots x_{ik}), i = 1, \cdots, n (yi,xi1⋯xik),i=1,⋯,n,则有: { y 1 = β 0 + β 1 x 11 + ⋯ + β k x 1 k + ϵ 1 ; ⋯ ⋯ y n = β 0 + β 1 x n 1 + ⋯ + β k x n k + ϵ n , \begin{cases} y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_k x_{1k} + \epsilon_1; \\ \cdots \cdots \\ y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_k x_{nk} + \epsilon_n, \end{cases} ⎩ ⎨ ⎧y1=β0+β1x11+⋯+βkx1k+ϵ1;⋯⋯yn=β0+β1xn1+⋯+βkxnk+ϵn,
写成矩阵形式为: Y = X β + ϵ Y = X\beta + \epsilon Y=Xβ+ϵ
其中: Y = ( y 1 y 2 ⋮ y n ) , X = ( 1 x 11 ⋯ x 1 k 1 x 21 ⋯ x 2 k ⋮ ⋮ ⋱ ⋮ 1 x n 1 ⋯ x n k ) , β = ( β 0 β 1 ⋮ β k ) , ϵ = ( ϵ 1 ϵ 2 ⋮ ϵ n ) Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} , \quad X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1k} \\ 1 & x_{21} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{nk} \end{pmatrix} , \quad \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} , \quad \epsilon = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix} Y= y1y2⋮yn ,X= 11⋮1x11x21⋮xn1⋯⋯⋱⋯x1kx2k⋮xnk ,β= β0β1⋮βk ,ϵ= ϵ1ϵ2⋮ϵn
这里 Y Y Y 表示随机变量 y y y 的 n n n 次观测值组成的列向量,称为观测向量; X X X 的元素是 k k k 个自变量 x 1 , ⋯ , x k x_1, \cdots, x_k x1,⋯,xk 在 n n n 次观测中的取值; β \beta β 称为未知参数向量; ϵ \epsilon ϵ 称为随机误差向量,满足: E ( ϵ ) = 0 , C o v ( ϵ , ϵ ) = Σ . E(\epsilon) = 0, \quad Cov(\epsilon, \epsilon) = \Sigma. E(ϵ)=0,Cov(ϵ,ϵ)=Σ.
称模型 Y = X β + ϵ , E ( ϵ ) = 0 , Cov ( ϵ , ϵ ) = Σ Y = X\beta + \epsilon, \quad E(\epsilon) = 0, \quad \text{Cov}(\epsilon, \epsilon) = \Sigma Y=Xβ+ϵ,E(ϵ)=0,Cov(ϵ,ϵ)=Σ
为 n n n 元线性回归模型。
若 Y = X β + ϵ , ϵ ∼ N ( 0 , σ 2 I n ) Y = X\beta + \epsilon, \quad \epsilon \sim N(\mathbf{0}, \sigma^2 I_n) Y=Xβ+ϵ,ϵ∼N(0,σ2In),则称为多元正态线性回归模型。
2️⃣ 参数 β \beta β 的统计
仍采用最小二乘法,求误差 ϵ i = y i − ( β 0 + β 1 x i 1 + ⋯ + β k x i k ) \epsilon_i = y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik}) ϵi=yi−(β0+β1xi1+⋯+βkxik) 的平方和。
令 Q ( β ) = ∑ i = 1 n [ y i − ( β 0 + β 1 x i 1 + ⋯ + β k x i k ) ] 2 Q(\beta) = \sum_{i=1}^{n} [y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})]^2 Q(β)=∑i=1n[yi−(β0+β1xi1+⋯+βkxik)]2 达到最小,对 Q ( β ) Q(\beta) Q(β) 分别关于 β 0 , β 1 , ⋯ , β k \beta_0, \beta_1, \cdots, \beta_k β0,β1,⋯,βk 求偏导数,并令它们为 0,即 ∂ Q ∂ β j = 0 , j = 0 , 1 , ⋯ , k , \frac{\partial Q}{\partial \beta_j} = 0, j = 0, 1, \cdots, k, ∂βj∂Q=0,j=0,1,⋯,k, { ∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + ⋯ + β k x i k ) ) = 0 ; ⋯ ⋯ ∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + ⋯ + β k x i k ) ) x i j = 0 ; \begin{cases} \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})) = 0; \\ \cdots \cdots \\ \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik})) x_{ij} = 0; \end{cases} ⎩ ⎨ ⎧∑i=1n(yi−(β0+β1xi1+⋯+βkxik))=0;⋯⋯∑i=1n(yi−(β0+β1xi1+⋯+βkxik))xij=0;
称为正规方程组。
若用矩阵表示为: Q ( β ) = ( Y − X β ) ′ ( Y − X β ) = Y ′ Y − 2 β ′ X ′ Y + β ′ X ′ X β ∂ Q ∂ β = − 2 X ′ Y + 2 X ′ X β = 0 Q(\beta) = (Y - X\beta)'(Y - X\beta) = Y'Y - 2\beta'X'Y + \beta'X'X\beta \\ \frac{\partial Q}{\partial \beta} = -2X'Y + 2X'X\beta = 0 Q(β)=(Y−Xβ)′(Y−Xβ)=Y′Y−2β′X′Y+β′X′Xβ∂β∂Q=−2X′Y+2X′Xβ=0
所以: X ′ X β = X ′ Y X'X\beta = X'Y X′Xβ=X′Y
若 X X X 是列满秩矩阵, ( X ′ X ) − 1 (X'X)^{-1} (X′X)−1 存在,则: β ^ = ( X ′ X ) − 1 X ′ Y \hat{\beta} = (X'X)^{-1}X'Y β^=(X′X)−1X′Y
线性方程组有唯一解 ⇔ X ′ X \Leftrightarrow X'X ⇔X′X 是列满秩的
对于正规方程组的解与 β \beta β 的最小二乘估计有以下关系:
定理:
- (1) 正规方程组的解必是 β \beta β 的最小二乘估计;
- (2) β \beta β 的最小二乘估计必是正规方程组的解。
因而 β ^ \hat{\beta} β^ 即为 β \beta β 的最小二乘估计,记 β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ k ) \hat{\beta} = (\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_k) β^=(β^0,β^1,⋯,β^k),则: y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ k x k \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k y^=β^0+β^1x1+⋯+β^kxk 称为多元线性回归方程。
3️⃣ 参数 σ 2 \sigma^2 σ2 的估计
用残差向量 ϵ ^ = Y − X β ^ \hat{\epsilon} = Y - X\hat{\beta} ϵ^=Y−Xβ^ 来构造方差 σ 2 \sigma^2 σ2 的估计。令
σ ^ 2 = Q e n − k − 1 = ϵ ^ ′ ϵ ^ n − k − 1 \hat{\sigma}^2 = \frac{Q_e}{n - k - 1} = \frac{\hat{\epsilon}' \hat{\epsilon}}{n - k - 1} σ^2=n−k−1Qe=n−k−1ϵ^′ϵ^
称为剩余方差,则有 E ( σ ^ 2 ) = σ 2 E(\hat{\sigma}^2) = \sigma^2 E(σ^2)=σ2(即 σ ^ 2 \hat{\sigma}^2 σ^2 是 σ 2 \sigma^2 σ2 的无偏估计)。
性质:对于多元线性回归模型:
-
(1) E ( β ^ ) = β , E ( σ ^ 2 ) = σ 2 , E(\hat{\beta}) = \beta, E(\hat{\sigma}^2) = \sigma^2, E(β^)=β,E(σ^2)=σ2, 即 β ^ \hat{\beta} β^ 与 σ ^ 2 \hat{\sigma}^2 σ^2 分别是 β \beta β 和 σ 2 \sigma^2 σ2 的无偏估计。
-
(2) β ^ ∼ N ( β , σ 2 ( X ′ X ) − 1 ) , ( n − k − 1 ) σ ^ 2 σ 2 ∼ χ 2 ( n − k − 1 ) \hat{\beta} \sim N(\beta, \sigma^2(X'X)^{-1}), \frac{(n-k-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-k-1) β^∼N(β,σ2(X′X)−1),σ2(n−k−1)σ^2∼χ2(n−k−1) 且二者相互独立。
-
(3) cov ( β ^ , β ^ ) = σ 2 ( X ′ X ) − 1 \text{cov}(\hat{\beta}, \hat{\beta}) = \sigma^2(X'X)^{-1} cov(β^,β^)=σ2(X′X)−1, 表明各个分量在一般情况下是不独立的。
-
(4)若 ϵ ∼ N ( 0 , σ 2 I n ) \epsilon \sim N(\mathbf{0}, \sigma^2 I_n) ϵ∼N(0,σ2In), 则 β \beta β 的最小二乘估计 β ^ \hat{\beta} β^ 也是 β \beta β 的最大似然估计, σ 2 \sigma^2 σ2 的最大似然估计为 Q e n \frac{Q_e}{n} nQe。
4️⃣ 线性回归模型的中心化处理
设有 n n n 组独立的观测值 ( y i , x i 1 ⋯ x i k ) , i = 1 , ⋯ , n (y_i, x_{i1} \cdots x_{ik}), i = 1, \cdots, n (yi,xi1⋯xik),i=1,⋯,n 和 ( x ˉ 1 , ⋯ , x ˉ k ; y ˉ ) (\bar{x}_1, \cdots, \bar{x}_k; \bar{y}) (xˉ1,⋯,xˉk;yˉ)
{ y 1 − y ˉ = β ~ 0 + β 1 ( x 11 − x ˉ 1 ) + ⋯ + β k ( x 1 k − x ˉ k ) + ϵ 1 , ⋯ ⋯ y n − y ˉ = β ~ 0 + β 1 ( x n 1 − x ˉ 1 ) + ⋯ + β k ( x n k − x ˉ k ) + ϵ n , \begin{cases} y_1 - \bar{y} = \widetilde{\beta}_0 + \beta_1(x_{11} - \bar{x}_1) + \cdots + \beta_k(x_{1k} - \bar{x}_k) + \epsilon_1, \\ \cdots \cdots \\ y_n - \bar{y} = \widetilde{\beta}_0 + \beta_1(x_{n1} - \bar{x}_1) + \cdots + \beta_k(x_{nk} - \bar{x}_k) + \epsilon_n, \end{cases} ⎩ ⎨ ⎧y1−yˉ=β 0+β1(x11−xˉ1)+⋯+βk(x1k−xˉk)+ϵ1,⋯⋯yn−yˉ=β 0+β1(xn1−xˉ1)+⋯+βk(xnk−xˉk)+ϵn,
其中 β ~ 0 : = β 0 + β 1 x ˉ 1 + ⋯ + β k x ˉ k − y ˉ \widetilde{\beta}_0 := \beta_0 + \beta_1\bar{x}_1 + \cdots + \beta_k\bar{x}_k - \bar{y} β 0:=β0+β1xˉ1+⋯+βkxˉk−yˉ。
矩阵表示:
Y ~ = ( y 1 − y ˉ y 2 − y ˉ ⋮ y n − y ˉ ) , X ~ = ( x 11 − x ˉ 1 ⋯ x 1 k − x ˉ k x 21 − x ˉ 1 ⋯ x 2 k − x ˉ k ⋮ ⋮ ⋮ x n 1 − x ˉ 1 ⋯ x n k − x ˉ k ) , β 1 = ( β 1 ⋮ β k ) ϵ = ( ϵ 1 ϵ 2 ⋮ ϵ n ) , Y ~ = ( 1 X ~ ) ( β ~ 0 β 1 ) + ϵ \widetilde{Y} = \begin{pmatrix} y_1 - \bar{y} \\ y_2 - \bar{y} \\ \vdots \\ y_n - \bar{y} \end{pmatrix}, \quad \widetilde{X} = \begin{pmatrix} x_{11} - \bar{x}_1 & \cdots & x_{1k} - \bar{x}_k \\ x_{21} - \bar{x}_1 & \cdots & x_{2k} - \bar{x}_k \\ \vdots & \vdots & \vdots \\ x_{n1} - \bar{x}_1 & \cdots & x_{nk} - \bar{x}_k \end{pmatrix}, \quad \beta_1 = \begin{pmatrix} \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \\ \epsilon = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}, \quad \widetilde{Y} = (\mathbf{1} \quad \widetilde{X}) \begin{pmatrix} \widetilde{\beta}_0 \\ \beta_1 \end{pmatrix} + \epsilon Y = y1−yˉy2−yˉ⋮yn−yˉ ,X = x11−xˉ1x21−xˉ1⋮xn1−xˉ1⋯⋯⋮⋯x1k−xˉkx2k−xˉk⋮xnk−xˉk ,β1= β1⋮βk ϵ= ϵ1ϵ2⋮ϵn ,Y =(1X )(β 0β1)+ϵ
其中: 1 = ( 1 , ⋯ , 1 ) ′ , 1 ′ X ~ = 0 , 1 ′ Y ~ = 0 \mathbf{1} = (1, \cdots, 1)', \quad \mathbf{1}'\widetilde{X} = \mathbf{0}, \quad \mathbf{1}'\widetilde{Y} = \mathbf{0} 1=(1,⋯,1)′,1′X =0,1′Y =0
中心化线性回归模型的最小二乘估计: ( β ~ ^ 0 β ^ 1 ) = [ ( 1 X ~ ) ′ ( 1 X ~ ) ] − 1 ( 1 X ~ ) ′ Y ~ = ( 1 n 0 0 ( X ~ ′ X ~ ) − 1 ) ( 0 X ~ ′ Y ~ ) \begin{pmatrix} \hat{\tilde{\beta}}_0 \\ \hat{\beta}_1 \end{pmatrix} = [(\mathbf{1} \quad \widetilde{X})' (\mathbf{1} \quad \widetilde{X})]^{-1} (\mathbf{1} \quad \widetilde{X})' \widetilde{Y} = \begin{pmatrix} \frac{1}{n} & \mathbf{0} \\ \mathbf{0} & (\widetilde{X}'\widetilde{X})^{-1} \end{pmatrix} \begin{pmatrix} \mathbf{0} \\ \widetilde{X}'\widetilde{Y} \end{pmatrix} (β~^0β^1)=[(1X )′(1X )]−1(1X )′Y =(n100(X ′X )−1)(0X ′Y ) ∴ { β ~ ^ 0 = 0 β ^ 1 = ( X ~ ′ X ~ ) − 1 X ~ ′ Y ~ \therefore \begin{cases} \hat{\tilde{\beta}}_0 = 0 \\ \hat{\beta}_1 = (\widetilde{X}'\widetilde{X})^{-1} \widetilde{X}'\widetilde{Y} \end{cases} ∴{β~^0=0β^1=(X ′X )−1X ′Y
所以可只考虑: Y ~ = X ~ β 1 + ϵ \widetilde{Y} = \widetilde{X}\beta_1 + \epsilon Y =X β1+ϵ
参数意义说明:
-
β 0 \beta_0 β0 可看作与因变量的度量起点有关;
-
β j \beta_j βj 则反映了 y y y 随自变量 x j x_j xj 的变化的大小。
5️⃣ 回归方程的显著性检验
提出假设:
H 0 : β 1 = ⋯ = β k = 0 H_0 : \beta_1 = \cdots = \beta_k = 0 H0:β1=⋯=βk=0
-
(1) 若接受 H 0 H_0 H0:则表明诸变量与 y y y 之间确实无线性相关关系;
-
(2) 若拒绝 H 0 H_0 H0:则认为回归方程是有意义的。但是这个结论只说明至少有一个 β i ≠ 0 \beta_i \neq 0 βi=0,也就是说在所选自变量中,至少有一部分对 y y y 来说是重要的,但不表示所有自变量都是重要的。
1. 平方和分解: Y ^ = X β ^ \hat{Y} = X\hat{\beta} Y^=Xβ^ 为 n n n 个试验点处 Y Y Y 的回归值,总的偏差平方和定义为: S y y = ∑ i = 1 n ( y i − y ˉ ) 2 = ( Y − 1 y ˉ ) ′ ( Y − 1 y ˉ ) S_{yy} = \sum_{i=1}^{n}(y_i - \bar{y})^2 = (Y - \mathbf{1}\bar{y})'(Y - \mathbf{1}\bar{y}) Syy=i=1∑n(yi−yˉ)2=(Y−1yˉ)′(Y−1yˉ) = ∥ Y − 1 y ˉ ∥ 2 = ∥ Y − Y ^ + Y ^ − 1 y ˉ ∥ 2 = \|Y - \mathbf{1}\bar{y}\|^2 = \|Y - \hat{Y} + \hat{Y} - \mathbf{1}\bar{y}\|^2 =∥Y−1yˉ∥2=∥Y−Y^+Y^−1yˉ∥2 = ∥ Y − Y ^ ∥ 2 + ∥ Y ^ − 1 y ˉ ∥ 2 + 2 ( Y − Y ^ ) ′ ( Y ^ − 1 y ˉ ) = \|Y - \hat{Y}\|^2 + \|\hat{Y} - \mathbf{1}\bar{y}\|^2 + 2(Y - \hat{Y})'(\hat{Y} - \mathbf{1}\bar{y}) =∥Y−Y^∥2+∥Y^−1yˉ∥2+2(Y−Y^)′(Y^−1yˉ)
正交性证明(证明交叉项为 0): ( Y − Y ^ ) ′ ( Y ^ − 1 y ˉ ) = ( Y − Y ^ ) ′ Y ^ − ( Y − y ^ ) ′ 1 y ˉ (Y - \hat{Y})'(\hat{Y} - \mathbf{1}\bar{y}) = (Y - \hat{Y})'\hat{Y} - (Y - \hat{y})'\mathbf{1}\bar{y} (Y−Y^)′(Y^−1yˉ)=(Y−Y^)′Y^−(Y−y^)′1yˉ = ( A Y ) ′ ( P Y ) − ( Y − Y ^ ) ′ 1 y ˉ = (AY)'(PY) - (Y - \hat{Y})'\mathbf{1}\bar{y} =(AY)′(PY)−(Y−Y^)′1yˉ = Y ′ A P Y − ( Y − Y ^ ) ′ 1 y ˉ = 0 = Y'APY - (Y - \hat{Y})'\mathbf{1}\bar{y} = 0 =Y′APY−(Y−Y^)′1yˉ=0
核心结论: S y y = ∥ Y − Y ^ ∥ 2 + ∥ Y ^ − 1 y ˉ ∥ 2 = Q e + U S_{yy} = \|Y - \hat{Y}\|^2 + \|\hat{Y} - \mathbf{1}\bar{y}\|^2 = Q_e + U Syy=∥Y−Y^∥2+∥Y^−1yˉ∥2=Qe+U
Q e Q_e Qe: 残差平方和, U U U: 回归平方和。若 U ≫ Q e U \gg Q_e U≫Qe 则说明回归方程是显著的
2. 构造统计量:
(1) F F F 统计量
当 ϵ ∼ N ( 0 , σ 2 I n ) \epsilon \sim N(0, \sigma^2 I_n) ϵ∼N(0,σ2In) 时: Q e σ 2 ∼ χ 2 ( n − k − 1 ) \frac{Q_e}{\sigma^2} \sim \chi^2(n - k - 1) σ2Qe∼χ2(n−k−1) S y y σ 2 ∼ H 0 χ 2 ( n − 1 ) \frac{S_{yy}}{\sigma^2} \overset{H_0}{\sim} \chi^2(n - 1) σ2Syy∼H0χ2(n−1)
已知: S y y = Q e + U , Q e = Y ′ A Y , r ( A ) = n − k − 1 S_{yy} = Q_e + U, \quad Q_e = Y'AY, \quad r(A) = n - k - 1 Syy=Qe+U,Qe=Y′AY,r(A)=n−k−1
由 Cochran 分解定理可证明 U σ 2 ∼ H 0 χ 2 ( k ) \frac{U}{\sigma^2} \overset{H_0}{\sim} \chi^2(k) σ2U∼H0χ2(k), Q e Q_e Qe 与 U U U 相互独立,则选取: F = U / k Q e / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{U/k}{Q_e/(n - k - 1)} \sim F(k, n - k - 1) F=Qe/(n−k−1)U/k∼F(k,n−k−1)
对给定的显著性水平 α \alpha α,拒绝域 W W W 为: W = { F > F 1 − α ( k , n − k − 1 ) } W = \{F > F_{1-\alpha}(k, n - k - 1)\} W={F>F1−α(k,n−k−1)}
(2) R 2 = U S y y R^2 = \frac{U}{S_{yy}} R2=SyyU,称 R 2 R^2 R2 为全相关系数。
它刻画了全体自变量 x 1 , … , x k x_1, \dots, x_k x1,…,xk 对于因变量 y y y 的线性相关程度。 R 2 R^2 R2 越大,越接近于 1,说明上述线性相关程度越显著, R 2 R^2 R2 可作为衡量回归方程总效果的一个数量指标。
注: F = n − k − 1 k R 2 1 − R 2 F = \frac{n-k-1}{k} \frac{R^2}{1-R^2} F=kn−k−11−R2R2,所以 F F F 检验与 R 2 R^2 R2 检验是等价的。
7️⃣ 回归系数的显著性检验
检验 x i x_i xi 对 y y y 的影响是否显著,等价于检验回归系数 H 0 i : β i = 0 H_{0i} : \beta_i = 0 H0i:βi=0:
-
(1) 若接受 H 0 i H_{0i} H0i:则表明 x i x_i xi 对 y y y 的影响相对于整个模型来说比较小;
-
(2) 若拒绝 H 0 i H_{0i} H0i:则表明 x i x_i xi 对 y y y 确有一定的影响,称 x i x_i xi 为显著因子。
当 ϵ ∼ N ( 0 , σ 2 I n ) \epsilon \sim N(0, \sigma^2 I_n) ϵ∼N(0,σ2In),若记 S = ( c i j ) = ( X ′ X ) − 1 S = (c_{ij}) = (X'X)^{-1} S=(cij)=(X′X)−1,则由性质知: β ^ i ∼ N ( β i , σ 2 c i i ) \hat{\beta}_i \sim N(\beta_i, \sigma^2 c_{ii}) β^i∼N(βi,σ2cii) 且 β ^ i \hat{\beta}_i β^i 与 Q e Q_e Qe 相互独立,其中 c i i c_{ii} cii 表示矩阵 S S S 的第 i i i 个对角元。
1. T 检验:选取 T = β ^ i c i i / Q e n − k − 1 ∼ H 0 i t ( n − k − 1 ) , T = \frac{\hat{\beta}_i}{\sqrt{c_{ii}}} \Big/ \sqrt{\frac{Q_e}{n - k - 1}} \overset{H_{0i}}{\sim} t(n - k - 1), T=ciiβ^i/n−k−1Qe∼H0it(n−k−1),
对给定的显著性水平 α \alpha α,拒绝域为: W = { ∣ t ∣ > t 1 − α / 2 ( n − k − 1 ) } W = \{ |t| > t_{1-\alpha/2}(n - k - 1) \} W={∣t∣>t1−α/2(n−k−1)}
2. F 检验:选取 F = β ^ i 2 c i i / Q e n − k − 1 ∼ H 0 i F ( 1 , n − k − 1 ) F = \frac{\hat{\beta}_i^2}{c_{ii}} \Big/ \frac{Q_e}{n - k - 1} \overset{H_{0i}}{\sim} F(1, n - k - 1) F=ciiβ^i2/n−k−1Qe∼H0iF(1,n−k−1)
对给定的显著性水平 α \alpha α,拒绝域为: W = { f > F 1 − α ( 1 , n − k − 1 ) } W = \{ f > F_{1-\alpha}(1, n - k - 1) \} W={f>F1−α(1,n−k−1)}
8️⃣ 偏回归平方和
偏回归平方和:自变量对 y y y 的影响,是指从回归方程剔除了这个自变量后所造成的影响,称回归平方和的减少部分为 y y y 对这个自变量的偏回归平方和。若在 y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ k x k \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k y^=β^0+β^1x1+⋯+β^kxk 中剔除自变量 x i x_i xi,不能简单地抹去这一项而得到: y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ i − 1 x i − 1 + β ^ i + 1 x i + 1 + ⋯ + β ^ k x k , \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_{i-1} x_{i-1} + \hat{\beta}_{i+1} x_{i+1} + \cdots + \hat{\beta}_k x_k, y^=β^0+β^1x1+⋯+β^i−1xi−1+β^i+1xi+1+⋯+β^kxk,
而应该重新估计回归系数,建立新的回归方程: y ^ ∗ = β ^ 0 ∗ + β ^ 1 ∗ x 1 + ⋯ + β ^ i − 1 ∗ x i − 1 + β ^ i + 1 ∗ x i + 1 + ⋯ + β ^ k ∗ x k . \hat{y}^* = \hat{\beta}_0^* + \hat{\beta}_1^* x_1 + \cdots + \hat{\beta}_{i-1}^* x_{i-1} + \hat{\beta}_{i+1}^* x_{i+1} + \cdots + \hat{\beta}_k^* x_k. y^∗=β^0∗+β^1∗x1+⋯+β^i−1∗xi−1+β^i+1∗xi+1+⋯+β^k∗xk.
一般地 β ^ j ∗ ≠ β ^ j \hat{\beta}_j^* \neq \hat{\beta}_j β^j∗=β^j,可以证明 β ^ j ∗ \hat{\beta}_j^* β^j∗ 与 β ^ j \hat{\beta}_j β^j 之间有以下关系: β ^ j ∗ = β ^ j − c i j c i i β ^ i , j ≠ i , β ^ 0 ∗ = y ˉ − ∑ j ≠ i β ^ j ∗ x ˉ j \hat{\beta}_j^* = \hat{\beta}_j - \frac{c_{ij}}{c_{ii}}\hat{\beta}_i, \quad j \neq i, \quad \hat{\beta}_0^* = \bar{y} - \sum_{j \neq i} \hat{\beta}_j^* \bar{x}_j β^j∗=β^j−ciicijβ^i,j=i,β^0∗=yˉ−j=i∑β^j∗xˉj
其中 c i j c_{ij} cij 为 S − 1 = ( X ′ X ) − 1 S^{-1} = (X'X)^{-1} S−1=(X′X)−1 的元素。
注:
(1)回归系数显著性检验的 F F F 统计量的分子即为偏回归平方和。偏回归平方和越大,此变量对 y y y 的影响越显著。变量剔除原则:
(2)得到回归方程后,计算每个变量的偏回归平方和。对于偏回归平方和最小的变量,如果其相应的回归系数检验又不显著,可将此变量剔除。
9️⃣ R语言例题
例 4.8 某种水泥在凝固时放出的热量 y y y (cal/g),与水泥中下列 4 种化学成分有关:
- x 1 x_1 x1: 3 CaO ⋅ Al 2 O 3 3\text{CaO} \cdot \text{Al}_2\text{O}_3 3CaO⋅Al2O3 的成分 (%) ;
- x 2 x_2 x2: 3 CaO ⋅ SiO 2 3\text{CaO} \cdot \text{SiO}_2 3CaO⋅SiO2 的成分 (%) ;
- x 3 x_3 x3: 4 CaO ⋅ Al 2 O 3 ⋅ Fe 2 O 3 4\text{CaO} \cdot \text{Al}_2\text{O}_3 \cdot \text{Fe}_2\text{O}_3 4CaO⋅Al2O3⋅Fe2O3 的成分 (%) ;
- x 4 x_4 x4: 2 CaO ⋅ SiO 2 2\text{CaO} \cdot \text{SiO}_2 2CaO⋅SiO2 的成分 (%) 。
现记录了 13 组观测数据,列在表 4.3 中。求 y y y 关于这些自变量 x 1 , x 2 , x 3 , x 4 x_1, x_2, x_3, x_4 x1,x2,x3,x4 的线性回归模型: y ^ = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + β ^ 3 x 3 + β ^ 4 x 4 \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \hat{\beta}_3 x_3 + \hat{\beta}_4 x_4 y^=β^0+β^1x1+β^2x2+β^3x3+β^4x4
> heat
Call:
lm(formula = y ~ x1 + x2 + x3 + x4)
Coefficients:
(intercept) x1 x2 x3 x4
62.4054 1.5511 0.5102 0.1019 -0.1441

从上图可以看出,自变量 ( x 1 , x 2 , x 3 , x 4 x_1, x_2, x_3, x_4 x1,x2,x3,x4) 整体与 y y y 之间有很强的线性关系,但是 y y y 与每一个自变量的线性相关性却不强。
仔细研究 4 个自变量,不难发现它们的化学成分有紧密联系:都含有 CaO; x 1 , x 2 x_1, x_2 x1,x2 所含的成分与 x 3 , x 4 x_3, x_4 x3,x4 差不多。考虑到 x 1 , x 2 x_1, x_2 x1,x2 系数的 p p p 值较小,它们与 y y y 的线性相关关系更强,如果在建模时剔除 x 3 , x 4 x_3, x_4 x3,x4,也许会有较好的结果。
> summary( lm( formula = y ~ x1 + x2 ) )
Call:
lm( formula = y ~ x1 + x2 )

🔟 “最优”回归方程的选择
最优回归方程: 如回归方程中包含所有对 y y y 有显著影响的自变量,不包含对 y y y 影响不显著的自变量,同时在同类方程中残差平方和 Q e Q_e Qe 达到最小,则称此回归方程为最优的。
(1) 全部比较法: 从所有可能的自变量组合的回归方程中选择最优者。
注: 总可找到最优方程;但计算量大。
(2) 只出不进法: 从包含全部自变量的回归方程中逐个剔除不显著的自变量,直到回归方程中所含自变量全部都是显著的为止。首先考虑含所有自变量的回归方程,剔除不显著自变量中偏回归平方和最小的,再对其中的每个自变量进行显著性检验,继续剔除,直到所有自变量都显著。
注: 每剔除一次自变量就得重新计算回归系数。考虑自变量不多时,不显著自变量不多时,可采用;不显著自变量较多时,计算量大。
(3) 只进不出法: 从一个自变量开始,把显著的自变量逐个引入回归方程,直到在余下的自变量中选出一个与已引入的自变量一起组成回归方程有最大偏回归平方和的自变量,至经检验为不显著,因而不被引入时为止。
注: 计算量少,但不一定能得到最优方程。由于自变量间的相关关系,引入新的自变量后,使原来引入的自变量成为不显著的。
(4) 逐步回归法:综合方法(2)、(3),将自变量按其对 y y y 的影响一个一个引入,同时每引入一个新的自变量,即对原已引入的自变量逐个检验,将不显著的剔除,直到回归方程再也不能引入新的自变量,同时也不能剔除任一自变量为止。
注: 有计算技巧,计算量相对较小,有较好的计算程序。
1️⃣1️⃣ 利用回归方程进行预测
当给定 ( x 01 , … , x 0 k ) ′ (x_{01}, \dots, x_{0k})' (x01,…,x0k)′ 时, x ˉ = ( x ˉ 1 , … , x ˉ k ) ′ \bar{x} = (\bar{x}_1, \dots, \bar{x}_k)' xˉ=(xˉ1,…,xˉk)′ 表示各自变量在已进行的 n n n 次试验中的平均值向量。
1. 点预测
y 0 = β ^ 0 + β ^ 1 x 01 + ⋯ + β ^ k x 0 k y_0 = \hat{\beta}_0 + \hat{\beta}_1 x_{01} + \dots + \hat{\beta}_k x_{0k} y0=β^0+β^1x01+⋯+β^kx0k
2. 区间预测
P { ∣ y ^ 0 − y 0 ∣ < δ ( x 0 ) } = 1 − α P\{ |\hat{y}_0 - y_0| < \delta(x_0) \} = 1 - \alpha P{∣y^0−y0∣<δ(x0)}=1−α
y 0 y_0 y0 的置信水平为 1 − α 1 - \alpha 1−α 的预测区间为 ( y ^ 0 − δ ( x 0 ) , y ^ 0 + δ ( x 0 ) ) (\hat{y}_0 - \delta(x_0), \hat{y}_0 + \delta(x_0)) (y^0−δ(x0),y^0+δ(x0)),其中: δ ( x 0 ) = σ ^ t 1 − α 2 ( n − k − 1 ) 1 + 1 n + ( x 0 − x ˉ ) ′ ( X ~ ′ X ~ ) − 1 ( x 0 − x ˉ ) \delta(x_0) = \hat{\sigma} t_{1-\frac{\alpha}{2}}(n - k - 1) \sqrt{1 + \frac{1}{n} + (x_0 - \bar{x})' (\widetilde{X}' \widetilde{X})^{-1} (x_0 - \bar{x})} δ(x0)=σ^t1−2α(n−k−1)1+n1+(x0−xˉ)′(X ′X )−1(x0−xˉ)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)