极大似然估计（Maximum Likelihood Estimation, MLE）

phoenix@Capricornus

1856人浏览 · 2025-05-23 16:28:28

phoenix@Capricornus · 2025-05-23 16:28:28 发布

最大似然估计法

最大似然估计又称极大似然估计，是一种利用给定样本观测值来评估模型参数的方法，其基本原理为：利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。

分两种情况介绍最大似然估计的方法和步骤。

离散型总体

设离散型总体X的分布律为
$\theta),$
其中 $θ∈Θ\theta \in \Theta$ 为未知参数， $Θ\Theta$ 为 $θ\theta$ 的所有可能取值范围（称为参数空间），则对于给定的样本观测值 $,xnx_1, x_2, \cdots, x_n$ ，样本的联合分布律为
$P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta).$
称 $L(θ)L(\theta)$ 为似然函数，它是未知参数 $θ\theta$ 的函数。

连续型总体

设连续型总体 $X$ 的概率密度函数为 $\theta)$ ，其中 $θ∈Θ\theta \in \Theta$ 为未知参数， $Θ\Theta$ 为 $θ\theta$ 的所有可能取值范围（称为参数空间），则对于给定的样本观测值 $,xnx_1, x_2, \cdots, x_n$ ，样本的联合概率密度为 $∏i=1nf(xi;θ)\prod_{i=1}^{n} f(x_i; \theta)$ ，从而随机变量 $X_i$ 落在点 $x_i$ 的邻域（其半径为 $Δxi\Delta x_i$ ）内的概率可近似为
$\prod_{i=1}^{n} f(x_i; \theta) \Delta x_i.$

当 $,n)x_i (i=1,2,\cdots,n)$ 取定时，它是 $θ\theta$ 的函数，记为 $L(θ)L(\theta)$ ，称
$L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \Theta$
为似然函数。由于 $,n)\Delta x_i (i=1,2,\cdots,n)$ 与 $θ\theta$ 无关，故似然函数常取为
$L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta.$

最大似然估计法是，根据抽样得到的样本观测值 $,xnx_1, x_2, \cdots, x_n$ 来选取参数 $θ\theta$ 的值，使样本观测值出现的可能性最大，即使似然函数 $L(θ)L(\theta)$ 达到最大值，从而求得参数 $θ\theta$ 的最大似然估计 $θ^\hat{\theta}$ 。

当 $L(θ)L(\theta)$ 是可微函数时，要使 $L(θ)L(\theta)$ 取到最大值， $θ\theta$ 必须满足方程
$\dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0,$
此方程称为似然方程。

而由于 $L(θ)L(\theta)$ 是 $n$ 个函数的乘积，在求导时比较复杂，而 $ln⁡L(θ)\ln L(\theta)$ 是 $L(θ)L(\theta)$ 的单调递增函数， $ln⁡L(θ)\ln L(\theta)$ 与 $L(θ)L(\theta)$ 在同一点处取得最大值，因此求解上述似然方程可以转化为求解方程
$\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0,$
这个方程称为对数似然方程。

当总体 $X$ 的分布中有多个未知参数 $,θm\theta_1, \theta_2, \cdots, \theta_m$ 时，似然函数就是这些参数的多元函数 $,θm)L(\theta_1, \theta_2, \cdots, \theta_m)$ ，则相应地有对数似然方程组。
$\begin{cases} \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases}$

由此方程组解得 $,θm\theta_1, \theta_2, \cdots, \theta_m$ 的最大似然估计值 $θ^1,θ^2,⋯ ,θ^m\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_m$ .

综上，可得求最大似然估计的一般步骤：

(1) 写出似然函数 $,xn,θ)L(\theta) = L(x_1, x_2, \cdots, x_n, \theta)$ ；

(2) 令 $dL(θ)dθ=0\dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0$ 或 $dln⁡L(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0$ ，求出驻点；

(3) 判断并求出最大值点，用样本值代入就是参数的最大似然估计值。

注：
(1) 当似然函数关于未知参数不可微时，只能按最大似然原理计算最大值点；
(2) 上述的一般步骤对含有多个未知参数的情形同样适用，只需将求导数变为求偏导数；
(3) 称 $dln⁡L(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0$ 为对数似然方程，称 $,θn)∂θi=0\dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0$ ， $,ni=1,2,\cdots,n$ 为对数似然方程组。

最大似然估计的不变性原理
设 $θ^\hat{\theta}$ 是 $θ\theta$ 的最大似然估计， $u(\theta)$ 是 $θ\theta$ 的函数，且具有单值的反函数 $θ=θ(u)\theta = \theta(u)$ ，则 $u(θ^)u(\hat{\theta})$ 是 $u(θ)u(\theta)$ 的最大似然估计。