【TJU】研究生应用统计学课程笔记（10）——第四章线性模型（4.3 可化为线性回归的曲线回归、4.4 单因子方差分析）

若叶€枫璨

332人浏览 · 2026-05-07 17:01:56

若叶€枫璨 · 2026-05-07 17:01:56 发布

【TJU】研究生应用统计学课程笔记（10）——第四章线性模型（4.3 可化为线性回归的曲线回归、4.4 单因子方差分析）

4.3 可化为线性回归的曲线回归
4.4 单因子方差分析

4.3 可化为线性回归的曲线回归

1️⃣ 可化为一元线性回归的模型

1、双曲线方程： $\frac{1}{y} = a + \frac{b}{x}$

变换方法：令 $\frac{1}{y}, x' = \frac{1}{x}$ ，线性形式：则有 $y^{'} = a + b x^{'}$

2、幂函数方程： $y = ax^b$

变换方法：令 $\ln y, x' = \ln x, a' = \ln a$ ，线性形式：则有 $y^{'} = a^{'} + b x^{'}$

3、指数曲线方程： $y = ae^{bx}$

变换方法：令 $\ln y, a' = \ln a$ ，线性形式：则有 $y^{'} = a^{'} + b x$

4、指数曲线方程： $ae^{\frac{b}{x}}$

变换方法：令 $\ln y, x' = \frac{1}{x}, a' = \ln a$ ，线性形式：则有 $y^{'} = a^{'} + b x^{'}$

5、对数曲线方程： $\ln x$

变换方法：令 $\ln x$ ，线性形式：则有 $y = a + b x^{'}$

6、S 型曲线方程： $\frac{1}{a + be^{-x}}$

变换方法：令 $\frac{1}{y}, x' = e^{-x}$ ，线性形式：则有 $y^{'} = a + b x^{'}$

2️⃣ 可化为一元线性回归的模型例题

例 4.6 已知鱼的体重 $y$ 与它的身长 $x$ 有近似关系式 $ax^b \quad \dots(4.2.33)$ ，今测得某种鱼的生长数据如表 4.1 所示。

在这里插入图片描述

为了得到关于参数的线性函数，对式 (4.2.33) 两边取对数，有

$\ln y = \ln a + b \ln x$

令 $\ln y, v = \ln x, A = \ln a$ ，上式即为 $\quad \dots(4.2.34)$

这是一个线性回归模型。对表 4.1 中数据作相应的变换，得到的值列于表 4.2 中。

在这里插入图片描述

由此按式 (4.2.6) 和 (4.2.7) 可得参数 $A, b$ 的最小二乘估计为 $\hat{A} = -9.542, \hat{b} = 2.867$ ，因此得到经验回归方程 $u = - 9.542 + 2.867 v$

若以 $\hat{a} = e^{\hat{A}} = e^{-9.542} = 7.18 \times 10^{-5}$

作为 $a$ 的估计，最后有 $\hat{y} = 7.18 \times 10^{-5} x^{2.867} \quad \dots(4.2.35)$

3️⃣ 多项式回归模型

若随机变量 $y$ 与自变量 $x$ 之间的相关关系为：

$\begin{cases} y = \beta_0 + \beta_1x + \beta_2x^2 + \cdots + \beta_kx^k + \varepsilon; \\ (\varepsilon \sim N(0, \sigma^2)). \end{cases}$

称此模型为 (正态) 多项式回归模型。只需令 $x_i = x^i, i = 1, \cdots, k$ ，则可转化为多元线性回归模型：

$\begin{cases} Y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_kx_k + \varepsilon; \\ (\varepsilon \sim N(0, \sigma^2)). \end{cases}$

4️⃣ 多项式回归模型例题

例：某合金钢中的两种主要成分之和 $x$ 与它的膨胀系数 $y$ 之间有一定的数量关系，给出实验所得的 13 组数据，求 $y$ 与 $x$ 的回归方程。

在这里插入图片描述

先画散点图（观察数据呈现出的曲线趋势）。

设回归方程为 $\beta_0 + \beta_1x + \beta_2x^2$ 。

令 $x_1 = x, x_2 = x^2$ ，则可确定回归方程为 $\beta_0 + \beta_1x_1 + \beta_2x_2$ 。

经计算得到： $\hat{\beta}_0 = 257.063$ $\hat{\beta}_1 = -12.620$ $\hat{\beta}_2 = 0.156$

所以 $y$ 对 $x$ 的多项式回归方程为：

$\hat{y} = 257.063 - 12.620x + 0.156x^2$

在这里插入图片描述

多项式回归可以处理相当一类非线性问题，因为任一函数都可用多项式分段逼近。因此在许多实际问题中，常用多项式回归进行分析和计算。但是多项式回归的回归系数间存在着相关性，其计算量随着多项式次数 $k$ 的增大而迅速增加。特别当增高多项式次数而不能显著地增加回归平方和时，就不应再盲目地增高了。事实上由于每增高一次幂，就等于增加一个新的自变量，残差平方和就将多失去一个自由度，这对提高回归方程的精度是不利的。

4.4 单因子方差分析

1️⃣ 引言和基本概念

在实际问题中，某个变量（因变量）的取值可能与多个因素（自变量）有关。

方差分析是研究一种或多种因素（自变量）的变化对实验结果的观测值（因变量）是否具有显著影响。

与回归分析不同，方差分析的自变量未必是数值形式的量，也可能是某种属性（定性变量）。

回归分析是为了找出自变量与因变量之间关系的数学表达式。而方差分析只是为了弄清楚自变量对因变量的影响是否显著。

指标 – 试验的结果（如产品的性能，质量，产量等），用 $y$ 表示；

因子 – 试验中变化的因素（即影响指标的原因），用 $A, B, C$ 表示；

水平 – 因子在实验中所处的不同状态，如因子 $A$ 有 $n$ 个水平，用 $A_1, A_2, \dots, A_n$ 表示；

若试验中只有一个因素在变化，其他条件不变，则称为单因子试验，处理单因子试验的统计推断方法称为单因子方差分析。

例 1：5 个水稻产品比较试验，在成熟期随机抽取样本测定产量，每个品种取 3 个点，结果如下表：

在这里插入图片描述

指标：产量
因子：品种（单因子）
水平： $A_1, A_2, A_3, A_4, A_5$

（1）在同一水平 $A_i(i = 1, \dots, 5)$ 下，生产的条件虽然相同，但产量却有所不同，产生这种差异的原因是由于试验过程中随机因素的干扰及测量误差所致，称这类差异为随机误差或试验误差。说明试验结果是一个随机变量。

（2） 5 个不同的品种，从平均产量来看，它们是参差不齐的，其原因主要是由于品种的不同引起的差异（除了随机波动），称这类差异为系统误差。

(3) 对同一品种进行 3 次重复试验的结果可看成是取自同一个总体的样本，表中的 5 组数据可以看成是来自 5 个不同总体的样本，记这些总体为 $Y_1, Y_2, \dots, Y_5$ ，每个试验结果记为 $Y_{ij}, i = 1, \dots, 5, j = 1, 2, 3$ 。

通常假定： $Y_i \sim N(\mu_i, \sigma^2), i = 1, \dots, 5$ （其它试验条件不变，因而认为所有试验的方差是相同的）。 $Y_{i1}, Y_{i2}, \dots, Y_{in_i}$ 是来自 $Y_i$ 的样本， $n_i = 3, i = 1, \dots, 5$ ，且 $Y_1, Y_2, \dots, Y_5$ 相互独立。

（4）设因子 $A$ 有 $a$ 个水平，每个水平 $A_i$ 重复 $n_i$ 次，若重复数 $n_i$ 全相等，则称这类试验为等重复的单因子试验；反之，则称为不等重复的单因子试验。

（5）本例分析判断 5 个不同品种的产量之间的差异主要是由随机误差还是由于不同品种造成的问题，可归结为判定 5 个正态总体的均值是否相等的问题。若 5 个正态总体的均值相等，则认为产量之间的差异是由随机误差造成的；否则，认为产量之间的差异是由不同品种造成的。

2️⃣ 数学模型

设因子 $A$ 有 $a$ 个不同水平 $A_1, \dots, A_a$ ，它们对应的总体 $Y_1, \dots, Y_a$ 相互独立，且 $Y_i \sim N(\mu_i, \sigma^2), i=1, \dots, a$ 。在水平 $A_i$ 下进行 $n_i$ 次独立观测，获得容量为 $n_i$ 的一个样本 $Y_{i1}, Y_{i2}, \dots, Y_{in_i}, i=1, \dots, a$ 。

在这里插入图片描述

令 $\varepsilon_{ij} = Y_{ij} - \mu_i$ ，则：

$\begin{cases} Y_{ij} = \mu_i + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立.} \end{cases}$

为了找因子各水平对试验指标的影响，将 $\mu_i$ 分解。令 $\mu = \frac{1}{n} \sum_{i=1}^a n_i \mu_i, \quad n = \sum_{i=1}^a n_i, \quad \alpha_i = \mu_i - \mu, \quad i = 1, \dots, a$ ，其中 $\mu$ 为所有 $Y_{ij}$ 的总的平均值， $\alpha_i$ 为第 $i$ 个水平对试验指标的效应，简称为水平 $A_i$ 的效应，它反映了因子的第 $i$ 个水平 $A_i$ 对试验指标作用的大小。 $\therefore \mu_i = \mu + \alpha_i$

可以验证： $\sum_{i=1}^a n_i \alpha_i = \sum_{i=1}^a n_i (\mu_i - \mu) = 0$

于是有：

$\begin{cases} Y_{ij} = \mu + \alpha_i + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立}; \\ \sum_{i=1}^a n_i \alpha_i = 0. \end{cases}$

称为单因子方差分析模型。

3️⃣ 统计分析

判定因子 $A$ 的 $a$ 个水平下均值是否相等，归结为检验假设

$H_0 : \mu_1 = \mu_2 = \cdots = \mu_a$

或

$H_0 : \alpha_1 = \alpha_2 = \cdots = \alpha_a = 0$

是否成立

(1) 若 $H_0$ 成立，则 $\alpha_i = 0, i = 1, \dots, a$ ，模型变为：

$\begin{cases} Y_{ij} = \mu + \varepsilon_{ij}, \quad i = 1, \dots, a, \quad j = 1, \dots, n_i; \\ \varepsilon_{ij} \sim N(0, \sigma^2), \text{ 且 } \varepsilon_{ij} \text{ 相互独立} \end{cases}$

即试验数据之间的差异仅由随机误差产生，不同水平对指标没有显著影响。

记 $\bar{Y} = \frac{1}{n} \sum_{i=1}^a \sum_{j=1}^{n_i} Y_{ij}$ 表示所有 $Y_{ij}$ 的总平均值。 $\bar{Y}_{i.} = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij}$ 表示第 $i$ 个水平下的样本均值。

考虑统计量 $S_T = \sum_{i=1}^p \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y})^2$ 称为总偏差平方和（Sum of Squares for Total），反映全部试验数据之间的差异（离散程度）。

(2) 若 $H_0$ 不成立，则 $S_T$ 中除包含由随机误差 $\varepsilon_{ij}$ 所引起的偏差外，还应包含由 $\alpha_i$ 不全为 $0$ 所引起的偏差。

若能把 $S_T$ 中由 $\varepsilon_{ij}$ 所引起的偏差和因子 $\alpha_i$ 不全为 $0$ 所引起的偏差分开，并选取适当的统计量作为衡量它们之间差异的度量尺度，就可以检验假设 $H_0$ 。

将 $S_T$ 分解： $S_T = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y})^2 = \sum_{i=1}^{a} \sum_{j=1}^{n_i} [(Y_{ij} - \bar{Y}_{i.}) + (\bar{Y}_{i.} - \bar{Y})]^2$

注意到交叉项为零： $\sum_{i=1}^{p} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})(\bar{Y}_{i.} - \bar{Y}) = \sum_{i=1}^{p} (\bar{Y}_{i.} - \bar{Y}) \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.}) = 0$

最终得到： $S_T = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2 + \sum_{i=1}^{a} \sum_{j=1}^{n_i} (\bar{Y}_{i.} - \bar{Y})^2 = S_E + S_A$

其中 $S_E = \sum_{i=1}^a \sum_{j=1}^{n_i}(Y_{ij} - \bar{Y}_{i.})^2$ 反映了在相同条件下各次试验的差异，称为误差平方和或组内平方和；

$S_A = \sum_{i=1}^a n_i(\bar{Y}_{i.} - \bar{Y})^2$ 反映了来自不同总体的样本之间的差异，也就是反映了因子各水平效应 $\alpha_i$ 的影响，称为组间平方和， $S_A$ 也与试验误差有关。

由柯赫伦（W.G. Cochran）分解定理，可以推出： $\frac{S_A}{\sigma^2} \sim \chi^2(a - 1), \quad \frac{S_E}{\sigma^2} \sim \chi^2(n - a)$ 且 $S_A$ 和 $S_E$ 相互独立。选取统计量

$\frac{S_A / (a - 1)}{S_E / (n - a)} \sim F(a - 1, n - a)$

拒绝域为

$\{ F > F_{1-\alpha}(a - 1, n - a) \}$

若拒绝 $H_0$ ，则认为因子 $A$ 的 $a$ 个水平效应之间有显著性差异。

4️⃣ 方差分析表

在R中调用命令anova, 可以得到方差分析表。

在这里插入图片描述

5️⃣ 方差分析表例题

例 2：研究 5 个品种产量之间是否有显著性差异 ( $\alpha = 0.1$ )

在这里插入图片描述

$H_0 : \mu_1 = \dots = \mu_5$ ， $\frac{S_A / (5 - 1)}{S_E / (15 - 5)} \sim F(4, 10)$

$S_A = \sum_{i=1}^a \frac{1}{n_i} \left( \sum_{j=1}^{n_i} Y_{ij} \right)^2 - \frac{1}{n} \left( \sum_{i=1}^a \sum_{j=1}^{n_i} Y_{ij} \right)^2 = 19962 - 19874.4 = 87.6$

$S_E = \sum_{i=1}^a \sum_{j=1}^{n_i} (Y_{ij})^2 - \sum_{i=1}^a \frac{1}{n_i} \left( \sum_{j=1}^{n_i} Y_{ij} \right)^2 = 19986 - 19962 = 24$

$S_T = S_A + S_E = 111.6$

方差分析表：

在这里插入图片描述

对于 $\alpha = 0.1$ ，查表得临界值 $F_{0.9}(4, 10) = 2.61 < F$ （即 $9.13$ ），所以拒绝 $H_0$ 。

6️⃣ 参数估计

参数估计：当判定 $a$ 个水平效应之间有显著差异时，也就是说 $\mu_1, \dots, \mu_a$ 不完全相同，还需要对每一对 $\mu_i, \mu_j$ 之间的差异程度作出估计，也就是对效应之差 $\mu_i - \mu_j$ 进行区间估计。

(1) $E(\bar{Y}_{i.}) = \mu + \alpha_i, \quad i = 1, 2, \dots, a, \quad E(\bar{Y}) = \mu$ 。所以 $\hat{\mu} = \bar{Y}, \hat{\alpha}_i = \bar{Y}_{i.} - \bar{Y}$ 分别是 $\mu$ 和 $\alpha_i$ 的无偏估计。
(2) $Y_i \sim N(\mu_i, \sigma^2), Y_j \sim N(\mu_j, \sigma^2) \quad (i \neq j)$ ，求均值差 $\mu_i - \mu_j = \alpha_i - \alpha_j$ 的区间估计。

$\bar{Y}_{i.} \sim N(\mu_i, \frac{\sigma^2}{n_i})$ ， $\neq j$ 时， $\bar{Y}_{i.}$ 与 $\bar{Y}_{j.}$ 相互独立。所以

$\bar{Y}_{i.} - \bar{Y}_{j.} \sim N\left(\mu_i - \mu_j, \left(\frac{1}{n_i} + \frac{1}{n_j}\right)\sigma^2\right)$

又因为 $S_E / \sigma^2 \sim \chi^2(n - a)$ ，且 $\hat{\sigma}^2 = \frac{S_E}{n - a}$ （注： $\hat{\sigma}$ 即为均方误差 $M S E$ 的平方根），

$\frac{(\bar{Y}_{i.} - \bar{Y}_{j.}) - (\alpha_i - \alpha_j)}{\sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma}} \sim t(n - a)$

于是均值差 $\mu_i - \mu_j = \alpha_i - \alpha_j$ 的置信水平为 $\alpha)$ 置信区间为：

$\left[ \bar{Y}_{i.} - \bar{Y}_{j.} - \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma} t_{1-\frac{\alpha}{2}}(n - a), \quad \bar{Y}_{i.} - \bar{Y}_{j.} + \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}\hat{\sigma} t_{1-\frac{\alpha}{2}}(n - a) \right]$

注：

若置信区间包含 0，则以 $\alpha)$ 概率认为 $\mu_i$ 与 $\mu_j$ 没有显著差异；
若置信区间上限小于 0，则以 $\alpha)$ 概率认为 $\mu_i < \mu_j$ ；
若置信区间下限大于 0，则以 $\alpha)$ 概率认为 $\mu_i > \mu_j$ 。

7️⃣ 参数估计例题

例：根据上例的数据，选择使水稻产量达到最高的品种

从 5 个品种中任取 2 个进行比较（即两两比较），得 10 个置信区间。

通过比较得知： $\mu_1 > \mu_2, \mu_1 > \mu_3, \mu_1 > \mu_5$ $\mu_4 > \mu_2$ $\mu_1$ 与 $\mu_4$ 无显著差异

注意到 $\bar{Y}_{1.} > \bar{Y}_{4.}$ ， $\therefore$ 认为 $A_1$ 产量最高，其次是 $A_4$ 。

若一共 $m$ 个置信区间，将 $t_{1-\frac{\alpha}{2}}$ 换成 $t_{1-\frac{\alpha}{2m}}$ ，则 $m$ 个置信区间同时包含 $\mu_i - \mu_j$ 的概率至少为 $\alpha$ 。

例如：对于 $\alpha = 0.1, m = 10, n = 15, a = 5$ ： $n_1 = n_2 = n_3 = n_4 = n_5 = 3$

$\hat{\sigma} = \sqrt{\frac{S_E}{n - a}} = 1.549$ ， $t_{1-\frac{\alpha}{2m}}(n - a) = t_{0.995}(10) = 3.169$ ， $\delta = \hat{\sigma} \sqrt{\frac{1}{n_i} + \frac{1}{n_j}} t_{1-\frac{\alpha}{2m}}(n - a) = 4$

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

二分之一车辆悬架半车模型研究（Simulink仿真实现）

本文针对二分之一车辆悬架系统，构建半车模型并开展B级路面激励下的动态响应研究。以前后轮路面激励为输入，通过仿真分析质心垂向加速度、俯仰角加速度及悬架动行程等关键性能指标，揭示悬架参数对车辆平顺性的影响规律。研究结果可为悬架系统优化设计提供理论依据，同时为整车动力学性能评估提供参考。

AtomGit开源社区

【最新创新】基于多元宇宙优化算法的考虑“源-荷-储”协同互动的主动配电网优化调度研究【IEEE33节点】（Matlab代码实现）

随着分布式新能源（风电、光伏）的大规模并网以及储能技术、需求响应机制的逐步推广，配电网的运行环境日趋复杂，传统依赖凸优化求解器的优化方法已难以满足多约束、非线性、多目标的配电网运行需求。本文以 IEEE33 节点配电网为研究对象，构建了包含新能源出力、储能系统、需求响应的协同优化运行模型，创新性地采用多元宇宙优化算法（Multi-Verse Optimizer, MVO）替代传统求解器，实现系统运