多元线性回归模型

本文主要介绍多元线性回归模型的概念及引入，模型构建的基本假定，如何去估计参数，随后介绍模型的检验及注意事项，最后介绍利用模型如何预测。

文章共6,005字 · 阅读需要大约21分钟

一键AI生成摘要，助你高效阅读

问答

小高要坚强

20496人浏览 · 2022-11-28 20:19:40

小高要坚强 · 2022-11-28 20:19:40 发布

多元线性回归模型

由于实际问题的复杂性，一个经济变量可能会同多个变量相联系。例如，消费者对某种商品的需求量不仅取决于该种商品价格的影响，而且可能受消费者的收入水平、其他代用商品的价格等因素的影响。因此，有必要将只要有一个解释变量的一元回归模型推广到有多个解释变量的情况。

第一节多元线性回归模型及古典假定

一、多元线性回归模型

在计量经济学种，如果总体回归函数描述了一个被解释变量与多个解释变量之间的线性关系，由此而设定的总体回归函数就是多元线性回归模型。与一元线性回归模型类似，所谓多元线性回归模型是指对各个回归参数而言是线性的，而对于变量既可以是线性的，也可以不是线性的。

一般地，对于由n个单位构成的总体，包含被解释变量Y与k-1个被解释变量X2，X3，…，Xk的多元总体线性回归函数的形式为：
在这里插入图片描述
式中，Bj（j=1,2,…,k）为模型的参数；ui为随机扰动项；k-1为解释变量的个数。

多元线性回归与简单线性回归模型不同，简单线性回归模型中除一个解释变量以外，其他影响因素均被归入随机扰动项。多元线性回归模型把多个解释变量纳入模型，即将原归入随机扰动项的某些因素纳入模型，这对于计量分析有重要的意义。多元线性回归模型中有多个解释变量，可以同时估计和检验多个因素对被解释变量的影响，从而避免重要解释变量被遗漏而导致设定误差。

在有多个解释变量的模型中，由于多个解释变量会同时对被解释变量Y的变动发挥作用，如果要考察其中某个解释变量对Y的影响，就必须使其他解释变量保持不变。在多元线性回归模型中，回归系数Bj(j=1,2,…,k)表示的正是在控制其他解释变量不变的条件下，第j个解释变量的单位变动对被解释变量平均值的影响，这样的回归系数称为偏回归系数。多元线性回归模型中回归系数的偏回归系数性质，可以实现在某些控制变量不变的情况下，分析所关注的变量对被解释变量的真实影响。

在总体线性回归函数中，各个回归系数是未知的，只能利用样本观测值对之进行估计。如果将被解释变量的样本条件均值Yi估计表示为各个解释变量的线性函数，即得多元样本线性回归函数：
在这里插入图片描述
式中。Bj估计(j=1,2,…,k)是对总体回归参数Bj的估计。

与简单线性回归类似，多元回归，由样本估计的被解释变量样本条件均值Yi估计与实际观测值Yi之间通常也存在偏差，即剩余项或残差ei，所以多元样本线性回归函数也可表示为：Yi=Yi估计+ei

如果有n次样本观测值，则：
在这里插入图片描述
其中i(i=1,2,…,n)

多元线性回归分析要解决的主要问题，仍然是如何根据变量的样本观测值去估计回归模型中的各个参数，即要用样本回归函数去估计总体回归函数，并且对估计的参数及回归方程进行统计检验，最后利用回归模型进行预测和经济分析。

二、多元线性回归模型的矩阵形式

对被解释变量Y及多个解释变量作n次观测，所得的n组观测值(Yi,X2i,X3i,…,Xki)（i=1,2,…,n）的线性关系，实际可写成方程组的形式：
在这里插入图片描述

这样的方程组可表示成矩阵形式：

这里的X向量矩阵是由解释变量Xij的数据构成的矩阵，其中截距项可视为解释变量总是取值为1。X向量矩阵一般是由非随机变量构成的，有时也称为X的数据矩阵或设计矩阵。

这样，多元总体线性回归函数及样本线性回归函数的矩阵形式可表示为：
在这里插入图片描述

三、多元线性回归模型的古典假定

在多元回归分析中，为了使参数估计量具有良好的统计性质，便于对模型进行统计检验，也需要对模型及随机扰动项作一些假定。多元线性回归模型的基本假定条件如下：

1. 零均值假定

假定随机扰动项的期望或均值为零，即
在这里插入图片描述

2. 同方差和无自相关假定

假设随机扰动项互不相关且方差相同：
在这里插入图片描述

3. 随机扰动项与解释变量不相关假定

假定
在这里插入图片描述

4. 无多重共线性假定

假定各解释变量之间不存在线性关系，或者说各解释变量的观测值之间线性无关；在此条件下，解释变量观测值矩阵X列满秩:Rank(X)=k

5. 正态性假定

假定随机扰动项ui服从正态分布，即

在这里插入图片描述

上述这些假定条件称为多元线性回归模型的古典假定。在实际经济问题中，这些假定条件有时可能并不成立。在使用多元线性回归模型前，要识别这些假定条件是否满足。

第二节多元线性回归模型的估计

在对模型作出古典假定的基础上，即可对多元线性回归模型的参数加以估计，并分析参数估计量的统计性质。估计多元线性回归模型的方法有很多种，如最小二乘估计、极大似然估计、矩估计、广义矩估计等，在多元线性回归模型的古典假定全部都满足的条件下，最常用的是最小二乘估计法。

一、多元线性回归模型参数的最小二乘估计

与简单线性回归模型参数的估计类似，多元线性回归模型也需要用样本信息建立的样本回归函数“尽可能接近”地估计总体回归函数。按最小二乘准则，采用使估计的剩余平方和最小的原则去确定样本回归函数。

可由n个观测样本，可知残差为：
在这里插入图片描述
并使残差平方和最小，对每个参数求偏导，并令其为0，即：

已知样本回归函数为

两边左乘以样本观测值矩阵X的转置矩阵X’，有：

因为X’e=0，可得正规方程组：

由古典假定条件下的无多重共线性假定，可知(X’X)-1存在，所以可以求得参数向量的估计。其表达式为：
在这里插入图片描述

二、参数最小二乘估计的性质

参数的最小二乘估计使样本观测值的函数，因此，参数估计量是随抽样而变化的随机变量，当将具体的观测值代入时，即可得到参数的估计值。

类似于简单线性回归，在古典假定成立的情况下，多元线性回归模型参数的最小二乘估计也具有线性、无偏性与最小方差性等优良性质。

1. 线性性质

最小二乘估计的参数估计量是被解释变量观测值Yi的线性组合。

2. 无偏性

在这里插入图片描述

3. 最小方差性

参数向量B的最小二乘估计B估计是B的所有线性无偏估计量中方差最小的估计量。

这就是说，在古典假定都满足的条件下，多元线性回归模型的最小二乘估计量也是最佳线性无偏估计量。

三、OLS估计的分布性质

在多元线性回归中，各个参数的估计量B估计是随着样本观测值而变动的随机变量，必须确定其分布性质，才可能进行区间估计和假设检验。

根据正态性假定，ui是服从正态分布的，这就决定Yi也是服从正态分布的随机变量，由于最小二乘估计的线性性质，Bj的估计是Yi的线性函数，这决定了B估计也是服从正态分布的随机变量。
在这里插入图片描述

四、随机扰动项方差的估计

参数估计量的方差或标准差是衡量参数估计量接近真实参数的重要指标，据此可以判断参数估计量的可靠性。但随机扰动项的方差o方是未知的，参数估计量实际上无法直接计算。为此，需要对o方进行估计。这里直接给出它的估计：
在这里插入图片描述
这里的估计就是随机扰动项方差o方的无偏估计。这样我们就可以求得参数估计量的方差。

第三节多元线性回归模型的假设检验和区间估计

对已经估计出参数的多元线性回归模型的检验，除对假定条件是否满足的检验以外，主要是所估计的模型拟合优度的检验、模型中各个参数显著性的检验，以及整个回归方程显著性的检验。

一、拟合优度检验

在简单线性回归模型中，我们用可决系数R方来衡量估计的模型对观测值的拟合程度。在多元线性回归模型中，我们也需要讨论所估计的模型对观测值的拟合优度。

（一）多重可决系数
多元线性回归模型同简单线性回归类似，也可考察在Y的总变差中由多个解释变量做出了解释的那部分变差的比重，即“回归平方和”与“总离差平方和”的比值。在多元回归中这一比值称为多重可决系数，用R方来表示。

多重可决系数可表示为
在这里插入图片描述
其中TSS=ESS+RSS，总离差平方和TSS反映了被解释变量观测值总变差的大小；回归平方和ESS反映了被解释变量回归估计值总变差的大小，它是被解释变量观测值总变差中由多个解释变量做出解释的那部分变差，残差平方和RSS反映了被解释变量观测值与估计值之间的变差，是被解释变量观测值总变差中未被列入模型的解释变量解释的那部分变差。

显然，回归平方和ESS越大，残差平方和RSS就越小，从而被解释变量观测值总变差中能由解释变量解释的那部分变差就越大，模型对观测数据的拟合程度就越高。

（二）修正的可决系数
多重可决系数有一个重要性质，即它是模型中解释变量个数的不减函数，就是说，在样本容量不变时，随着模型中解释变量的增加，总离差平方和TSS不会改变，而解释了的平方和ESS可能增大，多重可决系数R方的值会变大。

当被解释变量相同而解释变量个数不同时，这给运用多重可决系数去比较两个模型的拟合程度带来缺陷。如果用自由度去纠正所计算的变差，可以纠正解释变量个数不同引起的对比困难。因为在样本容量一定的情况下，增加解释变量必定会使得待估参数的个数增加，从而会损失自由度。为此，可以用自由度去修正R方的残差平方和与回归平方和，从而引入修正的可决系数，其计算公式为：
在这里插入图片描述

由式子可以看出，当k>1时，调整后的R方小于R方，这意味着随着解释变量的增加，调整后的R方将小于R方。如果计算的调整R方可能为负值，这时规定为0。

在实际的计量中，往往希望所建立的模型R方或调整后的R方越大越好，但应明确，可决系数只是对模型拟合优度的度量，R方或调整后的R方越大说明列入模型中解释变量对被解释变量的联合影响程度越大，并非说明模型中各个解释变量对被解释变量的影响程度越大。在回归分析中，不仅要模型的拟合优度高，而且要得到总体回归系数的可靠估计量。因此，在选择模型时，不能单纯地凭可决系数的高低断定模型的优劣。

二、回归方程的显著性检验（F检验）

由于多元线性回归模型包含多个解释变量，它们同被解释变量之间是否存在显著的线性关系，还需进一步作出判断。也就是要对模型中被解释变量与所有解释变量之间的线性关系在整体上是否显著作出推断。

对回归整体显著性的检验，所检验假设的形式为
H0:B2=B3=…=Bk=0
H1:Bj(j=2,3,…k)不全为0
这种检验是在方差分析的基础上利用F检验进行的。方差分析表如下
在这里插入图片描述
可以证明在H0成立条件下，统计量：

即统计量F服从自由度为k-1和n-k的F分布。
由此，我们可以根据给定的显著性水平a，通过查询F分布表，得出自由度为k-1和n-k的临界值，将样本观测值代入F统计量中计算F值，然后与F_a(k-1,n-k)临界值比较。若大于临界值，则拒绝原假设，说明回归方程显著，即列入模型的各个解释变量联合起来对解释变量有显著影响。

拓展：在一元回归情形下，对参数B2的显著性检验（t检验）与对回归总体上的显著性检验（F检验）是等价的。

由方差分析可以看出，F检验与可决系数有密切的联系。都是通过总变差分解基础上构造统计量进行检验，区别在于前者（F检验）考虑了自由度，后者未考虑自由度。一般说来，模型对观测值的拟合程度越高，模型总体线性关系的显著性就越强。F统计量与可决系数R方之间关系有：
在这里插入图片描述
当R方=0时，F=0；当R方越大时，F值也越大。也就是说，对方程联合显著性检验的F检验，实际上也是对R方的显著性检验。

三、回归参数的显著性检验（t检验）

方程的整体线性关系显著并不一定表示每个解释变量对被解释变量的影响都是显著的。因此，还必须分别对每个解释变量进行显著性检验。

多元回归分析中对各个回归系数的显著性检验，目的在于分别检验当其他解释变量不变时，该回归系数对应的解释变量是否对被解释变量有显著影响。

1. 提出检验假设

H0: Bj=0 (j=1,2,…,k)
H1: Bj不等于0 (j=1,2,…,k)

2. 计算统计量

在H0成立的条件下，统计量为
在这里插入图片描述
根据样本观测值可计算t统计量的值

3. 检验

给定显著性水平，查自由度为n-k的t分布表，得临界值t_a/2(n-k)，其中k为参数个数。若大于临界值，则拒绝原假设，说明在其他解释变量不变的情况下，在显著性水平a=0.05下，可以认为解释变量Xj对被解释变量Y的影响是显著的。

从t分布表可以看出，给定显著性水平a=0.05情况下，当自由度大于10时，临界值t_a/2基本接近于2，因此，当系数估计的t统计量的绝对值明显超过2时，我们可以粗略判断，在显著性水平0.05下可拒绝原假设H0，认为相应解释变量对被解释变量的影响是显著的，此时犯错误的概率不超过0.05。如果系数估计的t统计量的绝对值远大于2，则犯错误的概率更小。

四、多元线性回归模型参数的区间估计

为了说明参数真实值的可能范围和可靠性，还需要在对参数点估计的基础上对多元线性回归模型参数作区间估计。请添加图片描述

第四节多元线性回归模型的预测

多元线性回归模型用于经济预测，是指在各个解释变量给定样本以外的数值的条件下，对预测期被解释变量Y的平均值E(Yf)及个别值Yf进行估计，这种预测也分为点预测与区间预测。

一、点预测

在已知多元线性回归模型情况下，将样本以外各个解释变量的值直接带入所估计的多元样本回归函数，就可以计算出被解释变量的点预测值Yf估计。

注意这里可证Yf估计是E(Yf)的无偏估计，从而可以用Yf估计作为E(Yf)和Yf的点预测值。

二、平均值E(Yf)的区间预测

为了对预测期平均值E(Yf)作区间预测，必须明确得到的点预测Yf估计与预测期平均值E(Yf)的关系，并分析其概率分布性质。如果记Yf估计和E(Yf)的偏差为wf，即
在这里插入图片描述
因为，Yf估计服从正态分布，wf也服从正态分布，而且

在这里插入图片描述
即可知道wf的分布。

给定显著性水平a，查自由度为n-k的t分布表，可得临界值t_a/2(n-k)，则Yf平均值E(Yf)的置信度为1-a的预测区间为

三、个别值Yf的区间预测

要对预测期个别值Yf作区间预测，除已经得到的点预测值Yf估计以外，还需要分析已知的点预测值Yf估计和预测期个别值Yf的联系，并明确其概率分布性质。显然，与点预测值Yf估计和预测期个别值Yf有关的是残差ef:
ef=Yf-Yf估计
因为Yf和Yf估计均服从正态分布，ef也服从正态分布，而且
在这里插入图片描述
同样的，

则该统计量t服从自由度为n-k的t分布/