最大似然估计法

最大似然估计又称极大似然估计,是一种利用给定样本观测值来评估模型参数的方法,其基本原理为:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。

分两种情况介绍最大似然估计的方法和步骤。

  1. 离散型总体

设离散型总体X的分布律为
P(X=x)=p(x;θ), P(X=x) = p(x; \theta),P(X=x)=p(x;θ),
其中θ∈Θ\theta \in \ThetaθΘ为未知参数,Θ\ThetaΘθ\thetaθ的所有可能取值范围(称为参数空间),则对于给定的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,,xn,样本的联合分布律为
P(X1=x1,X2=x2,⋯ ,Xn=xn)=∏i=1np(xi;θ). P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta).P(X1=x1,X2=x2,,Xn=xn)=i=1np(xi;θ).
L(θ)L(\theta)L(θ)为似然函数,它是未知参数θ\thetaθ 的函数。

  1. 连续型总体

设连续型总体XXX的概率密度函数为f(x;θ)f(x; \theta)f(x;θ),其中θ∈Θ\theta \in \ThetaθΘ 为未知参数,Θ\ThetaΘθ\thetaθ 的所有可能取值范围(称为参数空间),则对于给定的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,,xn,样本的联合概率密度为∏i=1nf(xi;θ)\prod_{i=1}^{n} f(x_i; \theta)i=1nf(xi;θ),从而随机变量XiX_iXi落在点xix_ixi的邻域(其半径为Δxi\Delta x_iΔxi)内的概率可近似为
∏i=1nf(xi;θ)Δxi. \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i.i=1nf(xi;θ)Δxi.

xi(i=1,2,⋯ ,n)x_i (i=1,2,\cdots,n)xi(i=1,2,,n)取定时,它是θ\thetaθ 的函数,记为L(θ)L(\theta)L(θ),称
L(θ)=∏i=1nf(xi;θ)Δxi,θ∈Θ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \ThetaL(θ)=i=1nf(xi;θ)Δxi,θΘ
为似然函数。由于Δxi(i=1,2,⋯ ,n)\Delta x_i (i=1,2,\cdots,n)Δxi(i=1,2,,n)θ\thetaθ 无关,故似然函数常取为
L(θ)=∏i=1nf(xi;θ),θ∈Θ. L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta.L(θ)=i=1nf(xi;θ),θΘ.

最大似然估计法是,根据抽样得到的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,,xn来选取参数θ\thetaθ 的值,使样本观测值出现的可能性最大,即使似然函数L(θ)L(\theta)L(θ)达到最大值,从而求得参数θ\thetaθ 的最大似然估计θ^\hat{\theta}θ^


L(θ)L(\theta)L(θ)是可微函数时,要使L(θ)L(\theta)L(θ)取到最大值,θ\thetaθ 必须满足方程
dL(θ)dθ=0, \dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0,dθdL(θ)=0,
此方程称为似然方程。

而由于L(θ)L(\theta)L(θ)nnn个函数的乘积,在求导时比较复杂,而ln⁡L(θ)\ln L(\theta)lnL(θ)L(θ)L(\theta)L(θ)的单调递增函数,ln⁡L(θ)\ln L(\theta)lnL(θ)L(θ)L(\theta)L(θ)在同一点处取得最大值,因此求解上述似然方程可以转化为求解方程
dln⁡L(θ)dθ=0, \dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0,dθdlnL(θ)=0,
这个方程称为对数似然方程

当总体XXX的分布中有多个未知参数θ1,θ2,⋯ ,θm\theta_1, \theta_2, \cdots, \theta_mθ1,θ2,,θm时,似然函数就是这些参数的多元函数L(θ1,θ2,⋯ ,θm)L(\theta_1, \theta_2, \cdots, \theta_m)L(θ1,θ2,,θm),则相应地有对数似然方程组
{∂ln⁡L(θ1,θ2,⋯ ,θm)∂θ1=0,∂ln⁡L(θ1,θ2,⋯ ,θm)∂θ2=0,⋮∂ln⁡L(θ1,θ2,⋯ ,θm)∂θm=0, \begin{cases} \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases} θ1lnL(θ1,θ2,,θm)=0,θ2lnL(θ1,θ2,,θm)=0,θmlnL(θ1,θ2,,θm)=0,

由此方程组解得θ1,θ2,⋯ ,θm\theta_1, \theta_2, \cdots, \theta_mθ1,θ2,,θm的最大似然估计值θ^1,θ^2,⋯ ,θ^m\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_mθ^1,θ^2,,θ^m.

综上,可得求最大似然估计的一般步骤:

(1) 写出似然函数L(θ)=L(x1,x2,⋯ ,xn,θ)L(\theta) = L(x_1, x_2, \cdots, x_n, \theta)L(θ)=L(x1,x2,,xn,θ)

(2) 令dL(θ)dθ=0\dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0dθdL(θ)=0dln⁡L(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0dθdlnL(θ)=0,求出驻点;

(3) 判断并求出最大值点,用样本值代入就是参数的最大似然估计值。

注:
(1) 当似然函数关于未知参数不可微时,只能按最大似然原理计算最大值点;
(2) 上述的一般步骤对含有多个未知参数的情形同样适用,只需将求导数变为求偏导数;
(3) 称dln⁡L(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0dθdlnL(θ)=0 为对数似然方程,称∂ln⁡L(θ1,θ2,⋯ ,θn)∂θi=0\dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0θilnL(θ1,θ2,,θn)=0i=1,2,⋯ ,ni=1,2,\cdots,ni=1,2,,n 为对数似然方程组。

最大似然估计的不变性原理
θ^\hat{\theta}θ^θ\thetaθ 的最大似然估计,u=u(θ)u = u(\theta)u=u(θ)θ\thetaθ 的函数,且具有单值的反函数θ=θ(u)\theta = \theta(u)θ=θ(u),则u(θ^)u(\hat{\theta})u(θ^)u(θ)u(\theta)u(θ) 的最大似然估计。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐