【TJU】研究生应用统计学课程笔记(10)——第四章 线性模型(4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)
【TJU】研究生应用统计学课程笔记(10)——第四章 线性模型(4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)
4.3 可化为线性回归的曲线回归
1️⃣ 可化为一元线性回归的模型
1、双曲线方程: 1 y = a + b x \frac{1}{y} = a + \frac{b}{x} y1=a+xb
变换方法:令 y ′ = 1 y , x ′ = 1 x y' = \frac{1}{y}, x' = \frac{1}{x} y′=y1,x′=x1,线性形式:则有 y ′ = a + b x ′ y' = a + bx' y′=a+bx′
2、幂函数方程: y = a x b y = ax^b y=axb
变换方法:令 y ′ = ln y , x ′ = ln x , a ′ = ln a y' = \ln y, x' = \ln x, a' = \ln a y′=lny,x′=lnx,a′=lna,线性形式:则有 y ′ = a ′ + b x ′ y' = a' + bx' y′=a′+bx′
3、指数曲线方程: y = a e b x y = ae^{bx} y=aebx
变换方法:令 y ′ = ln y , a ′ = ln a y' = \ln y, a' = \ln a y′=lny,a′=lna,线性形式:则有 y ′ = a ′ + b x y' = a' + bx y′=a′+bx
4、指数曲线方程: y = a e b x y = ae^{\frac{b}{x}} y=aexb
变换方法:令 y ′ = ln y , x ′ = 1 x , a ′ = ln a y' = \ln y, x' = \frac{1}{x}, a' = \ln a y′=lny,x′=x1,a′=lna,线性形式:则有 y ′ = a ′ + b x ′ y' = a' + bx' y′=a′+bx′
5、对数曲线方程: y = a + b ln x y = a + b \ln x y=a+blnx
变换方法:令 x ′ = ln x x' = \ln x x′=lnx,线性形式:则有 y = a + b x ′ y = a + bx' y=a+bx′
6、S 型曲线方程: y = 1 a + b e − x y = \frac{1}{a + be^{-x}} y=a+be−x1
变换方法:令 y ′ = 1 y , x ′ = e − x y' = \frac{1}{y}, x' = e^{-x} y′=y1,x′=e−x,线性形式:则有 y ′ = a + b x ′ y' = a + bx' y′=a+bx′
2️⃣ 可化为一元线性回归的模型例题
例 4.6 已知鱼的体重 y y y 与它的身长 x x x 有近似关系式 y = a x b … ( 4.2.33 ) y = ax^b \quad \dots(4.2.33) y=axb…(4.2.33),今测得某种鱼的生长数据如表 4.1 所示。

为了得到关于参数的线性函数,对式 (4.2.33) 两边取对数,有
ln y = ln a + b ln x \ln y = \ln a + b \ln x lny=lna+blnx
令 u = ln y , v = ln x , A = ln a u = \ln y, v = \ln x, A = \ln a u=lny,v=lnx,A=lna,上式即为 u = A + b v … ( 4.2.34 ) u = A + bv \quad \dots(4.2.34) u=A+bv…(4.2.34)
这是一个线性回归模型。对表 4.1 中数据作相应的变换,得到的值列于表 4.2 中。

由此按式 (4.2.6) 和 (4.2.7) 可得参数 A , b A, b A,b 的最小二乘估计为 A ^ = − 9.542 , b ^ = 2.867 \hat{A} = -9.542, \hat{b} = 2.867 A^=−9.542,b^=2.867,因此得到经验回归方程 u = − 9.542 + 2.867 v u = -9.542 + 2.867v u=−9.542+2.867v
若以 a ^ = e A ^ = e − 9.542 = 7.18 × 10 − 5 \hat{a} = e^{\hat{A}} = e^{-9.542} = 7.18 \times 10^{-5} a^=eA^=e−9.542=7.18×10−5
作为 a a a 的估计,最后有 y ^ = 7.18 × 10 − 5 x 2.867 … ( 4.2.35 ) \hat{y} = 7.18 \times 10^{-5} x^{2.867} \quad \dots(4.2.35) y^=7.18×10−5x2.867…(4.2.35)
3️⃣ 多项式回归模型
若随机变量 y y y 与自变量 x x x 之间的相关关系为:
{ y = β 0 + β 1 x + β 2 x 2 + ⋯ + β k x k + ε ; ( ε ∼ N ( 0 , σ 2 ) ) . \begin{cases} y = \beta_0 + \beta_1x + \beta_2x^2 + \cdots + \beta_kx^k + \varepsilon; \\ (\varepsilon \sim N(0, \sigma^2)). \end{cases} {y=β0+β1x+β2x2+⋯+βkxk+ε;(ε∼N(0,σ2)).
称此模型为 (正态) 多项式回归模型。只需令 x i = x i , i = 1 , ⋯ , k x_i = x^i, i = 1, \cdots, k xi=xi,i=1,⋯,k,则可转化为多元线性回归模型:
{ Y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ε ; ( ε ∼ N ( 0 , σ 2 ) ) . \begin{cases} Y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_kx_k + \varepsilon; \\ (\varepsilon \sim N(0, \sigma^2)). \end{cases} {Y=β0+β1x1+β2x2+⋯+βkxk+ε;(ε∼N(0,σ2)).
4️⃣ 多项式回归模型例题
例: 某合金钢中的两种主要成分之和 x x x 与它的膨胀系数 y y y 之间有一定的数量关系,给出实验所得的 13 组数据,求 y y y 与 x x x 的回归方程。

先画散点图(观察数据呈现出的曲线趋势)。
设回归方程为 y = β 0 + β 1 x + β 2 x 2 y = \beta_0 + \beta_1x + \beta_2x^2 y=β0+β1x+β2x2。
令 x 1 = x , x 2 = x 2 x_1 = x, x_2 = x^2 x1=x,x2=x2,则可确定回归方程为 y = β 0 + β 1 x 1 + β 2 x 2 y = \beta_0 + \beta_1x_1 + \beta_2x_2 y=β0+β1x1+β2x2。
经计算得到: β ^ 0 = 257.063 \hat{\beta}_0 = 257.063 β^0=257.063 β ^ 1 = − 12.620 \hat{\beta}_1 = -12.620 β^1=−12.620 β ^ 2 = 0.156 \hat{\beta}_2 = 0.156 β^2=0.156
所以 y y y 对 x x x 的多项式回归方程为:
y ^ = 257.063 − 12.620 x + 0.156 x 2 \hat{y} = 257.063 - 12.620x + 0.156x^2 y^=257.063−12.620x+0.156x2

多项式回归可以处理相当一类非线性问题,因为任一函数都可用多项式分段逼近。因此在许多实际问题中,常用多项式回归进行分析和计算。但是多项式回归的回归系数间存在着相关性,其计算量随着多项式次数 k k k 的增大而迅速增加。特别当增高多项式次数而不能显著地增加回归平方和时,就不应再盲目地增高了。事实上由于每增高一次幂,就等于增加一个新的自变量,残差平方和就将多失去一个自由度,这对提高回归方程的精度是不利的。
4.4 单因子方差分析
1️⃣ 引言和基本概念
在实际问题中,某个变量(因变量)的取值可能与多个因素(自变量)有关。
方差分析是研究一种或多种因素(自变量)的变化对实验结果的观测值(因变量)是否具有显著影响。
与回归分析不同,方差分析的自变量未必是数值形式的量,也可能是某种属性(定性变量)。
回归分析是为了找出自变量与因变量之间关系的数学表达式。而方差分析只是为了弄清楚自变量对因变量的影响是否显著。
指标 – 试验的结果(如产品的性能,质量,产量等),用 y y y 表示;
因子 – 试验中变化的因素(即影响指标的原因),用 A , B , C A, B, C A,B,C 表示;
水平 – 因子在实验中所处的不同状态,如因子 A A A 有 n n n 个水平,用 A 1 , A 2 , … , A n A_1, A_2, \dots, A_n A1,A2,…,An 表示;
若试验中只有一个因素在变化,其他条件不变,则称为单因子试验,处理单因子试验的统计推断方法称为单因子方差分析。
例 1:5 个水稻产品比较试验,在成熟期随机抽取样本测定产量,每个品种取 3 个点,结果如下表:

- 指标:产量
- 因子:品种(单因子)
- 水平: A 1 , A 2 , A 3 , A 4 , A 5 A_1, A_2, A_3, A_4, A_5 A1,A2,A3,A4,A5
(1) 在同一水平 A i ( i = 1 , … , 5 ) A_i(i = 1, \dots, 5) Ai(i=1,…,5) 下,生产的条件虽然相同,但产量却有所不同,产生这种差异的原因是由于试验过程中随机因素的干扰及测量误差所致,称这类差异为随机误差或试验误差。说明试验结果是一个随机变量。
(2) 5 个不同的品种,从平均产量来看,它们是参差不齐的,其原因主要是由于品种的不同引起的差异(除了随机波动),称这类差异为系统误差。
(3) 对同一品种进行 3 次重复试验的结果可看成是取自同一个总体的样本,表中的 5 组数据可以看成是来自 5 个不同总体的样本,记这些总体为 Y 1 , Y 2 , … , Y 5 Y_1, Y_2, \dots, Y_5 Y1,Y2,…,Y5,每个试验结果记为 Y i j , i = 1 , … , 5 , j = 1 , 2 , 3 Y_{ij}, i = 1, \dots, 5, j = 1, 2, 3 Yij,i=1,…,5,j=1,2,3。
通常假定: Y i ∼ N ( μ i , σ 2 ) , i = 1 , … , 5 Y_i \sim N(\mu_i, \sigma^2), i = 1, \dots, 5 Yi∼N(μi,σ2),i=1,…,5 (其它试验条件不变,因而认为所有试验的方差是相同的)。 Y i 1 , Y i 2 , … , Y i n i Y_{i1}, Y_{i2}, \dots, Y_{in_i} Yi1,Yi2,…,Yini 是来自 Y i Y_i Yi 的样本, n i = 3 , i = 1 , … , 5 n_i = 3, i = 1, \dots, 5 ni=3,i=1,…,5,且 Y 1 , Y 2 , … , Y 5 Y_1, Y_2, \dots, Y_5 Y1,Y2,…,Y5 相互独立。
(4) 设因子 A A A 有 a a a 个水平,每个水平 A i A_i Ai 重复 n i n_i ni 次,若重复数 n i n_i ni 全相等,则称这类试验为等重复的单因子试验;反之,则称为不等重复的单因子试验。
(5) 本例分析判断 5 个不同品种的产量之间的差异主要是由随机误差还是由于不同品种造成的问题,可归结为判定 5 个正态总体的均值是否相等的问题。若 5 个正态总体的均值相等,则认为产量之间的差异是由随机误差造成的;否则,认为产量之间的差异是由不同品种造成的。
2️⃣ 数学模型
设因子 A A A 有 a a a 个不同水平 A 1 , … , A a A_1, \dots, A_a A1,…,Aa,它们对应的总体 Y 1 , … , Y a Y_1, \dots, Y_a Y1,…,Ya 相互独立,且 Y i ∼ N ( μ i , σ 2 ) , i = 1 , … , a Y_i \sim N(\mu_i, \sigma^2), i=1, \dots, a Yi∼N(μi,σ2),i=1,…,a。在水平 A i A_i Ai 下进行 n i n_i ni 次独立观测,获得容量为 n i n_i ni 的一个样本 Y i 1 , Y i 2 , … , Y i n i , i = 1 , … , a Y_{i1}, Y_{i2}, \dots, Y_{in_i}, i=1, \dots, a Yi1,Yi2,…,Yini,i=1,…,a。

令 ε i j = Y i j − μ i \varepsilon_{ij} = Y_{ij} - \mu_i εij=Yij−μi,则:
{ Y i j = μ i + ε i j , i = 1 , … , a , j = 1 , … , n i ; ε i j ∼ N ( 0 , σ 2 ) , 且 ε i j 相互独立. \begin{cases} Y_{ij} = \mu_i + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立.} \end{cases} {Yij=μi+εij,i=1,…,a,j=1,…,ni;εij∼N(0,σ2), 且 εij 相互独立.
为了找因子各水平对试验指标的影响,将 μ i \mu_i μi 分解。令 μ = 1 n ∑ i = 1 a n i μ i , n = ∑ i = 1 a n i , α i = μ i − μ , i = 1 , … , a \mu = \frac{1}{n} \sum_{i=1}^a n_i \mu_i, \quad n = \sum_{i=1}^a n_i, \quad \alpha_i = \mu_i - \mu, \quad i = 1, \dots, a μ=n1∑i=1aniμi,n=∑i=1ani,αi=μi−μ,i=1,…,a,其中 μ \mu μ 为所有 Y i j Y_{ij} Yij 的总的平均值, α i \alpha_i αi 为第 i i i 个水平对试验指标的效应,简称为水平 A i A_i Ai 的效应,它反映了因子的第 i i i 个水平 A i A_i Ai 对试验指标作用的大小。 ∴ μ i = μ + α i \therefore \mu_i = \mu + \alpha_i ∴μi=μ+αi
可以验证: ∑ i = 1 a n i α i = ∑ i = 1 a n i ( μ i − μ ) = 0 \sum_{i=1}^a n_i \alpha_i = \sum_{i=1}^a n_i (\mu_i - \mu) = 0 ∑i=1aniαi=∑i=1ani(μi−μ)=0
于是有:
{ Y i j = μ + α i + ε i j , i = 1 , … , a , j = 1 , … , n i ; ε i j ∼ N ( 0 , σ 2 ) , 且 ε i j 相互独立 ; ∑ i = 1 a n i α i = 0. \begin{cases} Y_{ij} = \mu + \alpha_i + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立}; \\ \sum_{i=1}^a n_i \alpha_i = 0. \end{cases} ⎩ ⎨ ⎧Yij=μ+αi+εij,i=1,…,a,j=1,…,ni;εij∼N(0,σ2), 且 εij 相互独立;∑i=1aniαi=0.
称为单因子方差分析模型。
3️⃣ 统计分析
判定因子 A A A 的 a a a 个水平下均值是否相等,归结为检验假设
H 0 : μ 1 = μ 2 = ⋯ = μ a H_0 : \mu_1 = \mu_2 = \cdots = \mu_a H0:μ1=μ2=⋯=μa
或
H 0 : α 1 = α 2 = ⋯ = α a = 0 H_0 : \alpha_1 = \alpha_2 = \cdots = \alpha_a = 0 H0:α1=α2=⋯=αa=0
是否成立
(1) 若 H 0 H_0 H0 成立,则 α i = 0 , i = 1 , … , a \alpha_i = 0, i = 1, \dots, a αi=0,i=1,…,a,模型变为:
{ Y i j = μ + ε i j , i = 1 , … , a , j = 1 , … , n i ; ε i j ∼ N ( 0 , σ 2 ) , 且 ε i j 相互独立 \begin{cases} Y_{ij} = \mu + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立} \end{cases} {Yij=μ+εij,i=1,…,a,j=1,…,ni;εij∼N(0,σ2), 且 εij 相互独立
即试验数据之间的差异仅由随机误差产生,不同水平对指标没有显著影响。
记 Y ˉ = 1 n ∑ i = 1 a ∑ j = 1 n i Y i j \bar{Y} = \frac{1}{n} \sum_{i=1}^a \sum_{j=1}^{n_i} Y_{ij} Yˉ=n1∑i=1a∑j=1niYij 表示所有 Y i j Y_{ij} Yij 的总平均值。 Y ˉ i . = 1 n i ∑ j = 1 n i Y i j \bar{Y}_{i.} = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij} Yˉi.=ni1∑j=1niYij 表示第 i i i 个水平下的样本均值。
考虑统计量 S T = ∑ i = 1 p ∑ j = 1 n i ( Y i j − Y ˉ ) 2 S_T = \sum_{i=1}^p \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y})^2 ST=∑i=1p∑j=1ni(Yij−Yˉ)2 称为总偏差平方和(Sum of Squares for Total),反映全部试验数据之间的差异(离散程度)。
(2) 若 H 0 H_0 H0 不成立,则 S T S_T ST 中除包含由随机误差 ε i j \varepsilon_{ij} εij 所引起的偏差外,还应包含由 α i \alpha_i αi 不全为 0 0 0 所引起的偏差。
若能把 S T S_T ST 中由 ε i j \varepsilon_{ij} εij 所引起的偏差和因子 α i \alpha_i αi 不全为 0 0 0 所引起的偏差分开,并选取适当的统计量作为衡量它们之间差异的度量尺度,就可以检验假设 H 0 H_0 H0。
将 S T S_T ST 分解: S T = ∑ i = 1 a ∑ j = 1 n i ( Y i j − Y ˉ ) 2 = ∑ i = 1 a ∑ j = 1 n i [ ( Y i j − Y ˉ i . ) + ( Y ˉ i . − Y ˉ ) ] 2 S_T = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y})^2 = \sum_{i=1}^{a} \sum_{j=1}^{n_i} [(Y_{ij} - \bar{Y}_{i.}) + (\bar{Y}_{i.} - \bar{Y})]^2 ST=∑i=1a∑j=1ni(Yij−Yˉ)2=∑i=1a∑j=1ni[(Yij−Yˉi.)+(Yˉi.−Yˉ)]2
注意到交叉项为零: ∑ i = 1 p ∑ j = 1 n i ( Y i j − Y ˉ i . ) ( Y ˉ i . − Y ˉ ) = ∑ i = 1 p ( Y ˉ i . − Y ˉ ) ∑ j = 1 n i ( Y i j − Y ˉ i . ) = 0 \sum_{i=1}^{p} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})(\bar{Y}_{i.} - \bar{Y}) = \sum_{i=1}^{p} (\bar{Y}_{i.} - \bar{Y}) \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.}) = 0 ∑i=1p∑j=1ni(Yij−Yˉi.)(Yˉi.−Yˉ)=∑i=1p(Yˉi.−Yˉ)∑j=1ni(Yij−Yˉi.)=0
最终得到: S T = ∑ i = 1 a ∑ j = 1 n i ( Y i j − Y ˉ i . ) 2 + ∑ i = 1 a ∑ j = 1 n i ( Y ˉ i . − Y ˉ ) 2 = S E + S A S_T = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2 + \sum_{i=1}^{a} \sum_{j=1}^{n_i} (\bar{Y}_{i.} - \bar{Y})^2 = S_E + S_A ST=∑i=1a∑j=1ni(Yij−Yˉi.)2+∑i=1a∑j=1ni(Yˉi.−Yˉ)2=SE+SA
其中 S E = ∑ i = 1 a ∑ j = 1 n i ( Y i j − Y ˉ i . ) 2 S_E = \sum_{i=1}^a \sum_{j=1}^{n_i}(Y_{ij} - \bar{Y}_{i.})^2 SE=∑i=1a∑j=1ni(Yij−Yˉi.)2 反映了在相同条件下各次试验的差异,称为误差平方和或组内平方和;
S A = ∑ i = 1 a n i ( Y ˉ i . − Y ˉ ) 2 S_A = \sum_{i=1}^a n_i(\bar{Y}_{i.} - \bar{Y})^2 SA=∑i=1ani(Yˉi.−Yˉ)2 反映了来自不同总体的样本之间的差异,也就是反映了因子各水平效应 α i \alpha_i αi 的影响,称为组间平方和, S A S_A SA 也与试验误差有关。
由柯赫伦(W.G. Cochran)分解定理,可以推出: S A σ 2 ∼ χ 2 ( a − 1 ) , S E σ 2 ∼ χ 2 ( n − a ) \frac{S_A}{\sigma^2} \sim \chi^2(a - 1), \quad \frac{S_E}{\sigma^2} \sim \chi^2(n - a) σ2SA∼χ2(a−1),σ2SE∼χ2(n−a)且 S A S_A SA 和 S E S_E SE 相互独立。选取统计量
F = S A / ( a − 1 ) S E / ( n − a ) ∼ F ( a − 1 , n − a ) F = \frac{S_A / (a - 1)}{S_E / (n - a)} \sim F(a - 1, n - a) F=SE/(n−a)SA/(a−1)∼F(a−1,n−a)
拒绝域为
w = { F > F 1 − α ( a − 1 , n − a ) } w = \{ F > F_{1-\alpha}(a - 1, n - a) \} w={F>F1−α(a−1,n−a)}
若拒绝 H 0 H_0 H0,则认为因子 A A A 的 a a a 个水平效应之间有显著性差异。
4️⃣ 方差分析表
在R中调用命令anova, 可以得到方差分析表。

5️⃣ 方差分析表例题
例 2: 研究 5 个品种产量之间是否有显著性差异 ( α = 0.1 \alpha = 0.1 α=0.1)

H 0 : μ 1 = ⋯ = μ 5 H_0 : \mu_1 = \dots = \mu_5 H0:μ1=⋯=μ5, F = S A / ( 5 − 1 ) S E / ( 15 − 5 ) ∼ F ( 4 , 10 ) F = \frac{S_A / (5 - 1)}{S_E / (15 - 5)} \sim F(4, 10) F=SE/(15−5)SA/(5−1)∼F(4,10)
S A = ∑ i = 1 a 1 n i ( ∑ j = 1 n i Y i j ) 2 − 1 n ( ∑ i = 1 a ∑ j = 1 n i Y i j ) 2 = 19962 − 19874.4 = 87.6 S_A = \sum_{i=1}^a \frac{1}{n_i} \left( \sum_{j=1}^{n_i} Y_{ij} \right)^2 - \frac{1}{n} \left( \sum_{i=1}^a \sum_{j=1}^{n_i} Y_{ij} \right)^2 = 19962 - 19874.4 = 87.6 SA=∑i=1ani1(∑j=1niYij)2−n1(∑i=1a∑j=1niYij)2=19962−19874.4=87.6
S E = ∑ i = 1 a ∑ j = 1 n i ( Y i j ) 2 − ∑ i = 1 a 1 n i ( ∑ j = 1 n i Y i j ) 2 = 19986 − 19962 = 24 S_E = \sum_{i=1}^a \sum_{j=1}^{n_i} (Y_{ij})^2 - \sum_{i=1}^a \frac{1}{n_i} \left( \sum_{j=1}^{n_i} Y_{ij} \right)^2 = 19986 - 19962 = 24 SE=∑i=1a∑j=1ni(Yij)2−∑i=1ani1(∑j=1niYij)2=19986−19962=24
S T = S A + S E = 111.6 S_T = S_A + S_E = 111.6 ST=SA+SE=111.6
方差分析表:

对于 α = 0.1 \alpha = 0.1 α=0.1,查表得临界值 F 0.9 ( 4 , 10 ) = 2.61 < F F_{0.9}(4, 10) = 2.61 < F F0.9(4,10)=2.61<F(即 9.13 9.13 9.13),所以拒绝 H 0 H_0 H0。
6️⃣ 参数估计
参数估计:当判定 a a a 个水平效应之间有显著差异时,也就是说 μ 1 , … , μ a \mu_1, \dots, \mu_a μ1,…,μa 不完全相同,还需要对每一对 μ i , μ j \mu_i, \mu_j μi,μj 之间的差异程度作出估计,也就是对效应之差 μ i − μ j \mu_i - \mu_j μi−μj 进行区间估计。
- (1) E ( Y ˉ i . ) = μ + α i , i = 1 , 2 , … , a , E ( Y ˉ ) = μ E(\bar{Y}_{i.}) = \mu + \alpha_i, \quad i = 1, 2, \dots, a, \quad E(\bar{Y}) = \mu E(Yˉi.)=μ+αi,i=1,2,…,a,E(Yˉ)=μ。所以 μ ^ = Y ˉ , α ^ i = Y ˉ i . − Y ˉ \hat{\mu} = \bar{Y}, \hat{\alpha}_i = \bar{Y}_{i.} - \bar{Y} μ^=Yˉ,α^i=Yˉi.−Yˉ 分别是 μ \mu μ 和 α i \alpha_i αi 的无偏估计。
- (2) Y i ∼ N ( μ i , σ 2 ) , Y j ∼ N ( μ j , σ 2 ) ( i ≠ j ) Y_i \sim N(\mu_i, \sigma^2), Y_j \sim N(\mu_j, \sigma^2) \quad (i \neq j) Yi∼N(μi,σ2),Yj∼N(μj,σ2)(i=j),求均值差 μ i − μ j = α i − α j \mu_i - \mu_j = \alpha_i - \alpha_j μi−μj=αi−αj 的区间估计。
Y ˉ i . ∼ N ( μ i , σ 2 n i ) \bar{Y}_{i.} \sim N(\mu_i, \frac{\sigma^2}{n_i}) Yˉi.∼N(μi,niσ2), i ≠ j i \neq j i=j 时, Y ˉ i . \bar{Y}_{i.} Yˉi. 与 Y ˉ j . \bar{Y}_{j.} Yˉj. 相互独立。所以
Y ˉ i . − Y ˉ j . ∼ N ( μ i − μ j , ( 1 n i + 1 n j ) σ 2 ) \bar{Y}_{i.} - \bar{Y}_{j.} \sim N\left(\mu_i - \mu_j, \left(\frac{1}{n_i} + \frac{1}{n_j}\right)\sigma^2\right) Yˉi.−Yˉj.∼N(μi−μj,(ni1+nj1)σ2)
又因为 S E / σ 2 ∼ χ 2 ( n − a ) S_E / \sigma^2 \sim \chi^2(n - a) SE/σ2∼χ2(n−a),且 σ ^ 2 = S E n − a \hat{\sigma}^2 = \frac{S_E}{n - a} σ^2=n−aSE(注: σ ^ \hat{\sigma} σ^ 即为均方误差 M S E MSE MSE 的平方根),
( Y ˉ i . − Y ˉ j . ) − ( α i − α j ) 1 n i + 1 n j σ ^ ∼ t ( n − a ) \frac{(\bar{Y}_{i.} - \bar{Y}_{j.}) - (\alpha_i - \alpha_j)}{\sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma}} \sim t(n - a) ni1+nj1σ^(Yˉi.−Yˉj.)−(αi−αj)∼t(n−a)
于是均值差 μ i − μ j = α i − α j \mu_i - \mu_j = \alpha_i - \alpha_j μi−μj=αi−αj 的置信水平为 ( 1 − α ) (1 - \alpha) (1−α) 置信区间为:
[ Y ˉ i . − Y ˉ j . − 1 n i + 1 n j σ ^ t 1 − α 2 ( n − a ) , Y ˉ i . − Y ˉ j . + 1 n i + 1 n j σ ^ t 1 − α 2 ( n − a ) ] \left[ \bar{Y}_{i.} - \bar{Y}_{j.} - \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma} t_{1-\frac{\alpha}{2}}(n - a), \quad \bar{Y}_{i.} - \bar{Y}_{j.} + \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma} t_{1-\frac{\alpha}{2}}(n - a) \right] [Yˉi.−Yˉj.−ni1+nj1σ^t1−2α(n−a),Yˉi.−Yˉj.+ni1+nj1σ^t1−2α(n−a)]
注:
-
若置信区间包含 0,则以 ( 1 − α ) (1 - \alpha) (1−α) 概率认为 μ i \mu_i μi 与 μ j \mu_j μj 没有显著差异;
-
若置信区间上限小于 0,则以 ( 1 − α ) (1 - \alpha) (1−α) 概率认为 μ i < μ j \mu_i < \mu_j μi<μj;
-
若置信区间下限大于 0,则以 ( 1 − α ) (1 - \alpha) (1−α) 概率认为 μ i > μ j \mu_i > \mu_j μi>μj。
7️⃣ 参数估计例题
例:根据上例的数据,选择使水稻产量达到最高的品种
从 5 个品种中任取 2 个进行比较(即两两比较),得 10 个置信区间。
通过比较得知: μ 1 > μ 2 , μ 1 > μ 3 , μ 1 > μ 5 \mu_1 > \mu_2, \mu_1 > \mu_3, \mu_1 > \mu_5 μ1>μ2,μ1>μ3,μ1>μ5 μ 4 > μ 2 \mu_4 > \mu_2 μ4>μ2 μ 1 \mu_1 μ1 与 μ 4 \mu_4 μ4 无显著差异
注意到 Y ˉ 1. > Y ˉ 4. \bar{Y}_{1.} > \bar{Y}_{4.} Yˉ1.>Yˉ4., ∴ \therefore ∴ 认为 A 1 A_1 A1 产量最高,其次是 A 4 A_4 A4。
若一共 m m m 个置信区间,将 t 1 − α 2 t_{1-\frac{\alpha}{2}} t1−2α 换成 t 1 − α 2 m t_{1-\frac{\alpha}{2m}} t1−2mα,则 m m m 个置信区间同时包含 μ i − μ j \mu_i - \mu_j μi−μj 的概率至少为 1 − α 1 - \alpha 1−α。
例如:对于 α = 0.1 , m = 10 , n = 15 , a = 5 \alpha = 0.1, m = 10, n = 15, a = 5 α=0.1,m=10,n=15,a=5: n 1 = n 2 = n 3 = n 4 = n 5 = 3 n_1 = n_2 = n_3 = n_4 = n_5 = 3 n1=n2=n3=n4=n5=3
σ ^ = S E n − a = 1.549 \hat{\sigma} = \sqrt{\frac{S_E}{n - a}} = 1.549 σ^=n−aSE=1.549, t 1 − α 2 m ( n − a ) = t 0.995 ( 10 ) = 3.169 t_{1-\frac{\alpha}{2m}}(n - a) = t_{0.995}(10) = 3.169 t1−2mα(n−a)=t0.995(10)=3.169, δ = σ ^ 1 n i + 1 n j t 1 − α 2 m ( n − a ) = 4 \delta = \hat{\sigma} \sqrt{\frac{1}{n_i} + \frac{1}{n_j}} t_{1-\frac{\alpha}{2m}}(n - a) = 4 δ=σ^ni1+nj1t1−2mα(n−a)=4

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)