极大似然估计(Maximum Likelihood Estimation, MLE)
最大似然估计法
最大似然估计又称极大似然估计,是一种利用给定样本观测值来评估模型参数的方法,其基本原理为:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
分两种情况介绍最大似然估计的方法和步骤。
- 离散型总体
设离散型总体X的分布律为
P(X=x)=p(x;θ), P(X=x) = p(x; \theta),P(X=x)=p(x;θ),
其中θ∈Θ\theta \in \Thetaθ∈Θ为未知参数,Θ\ThetaΘ为θ\thetaθ的所有可能取值范围(称为参数空间),则对于给定的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn,样本的联合分布律为
P(X1=x1,X2=x2,⋯ ,Xn=xn)=∏i=1np(xi;θ). P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta).P(X1=x1,X2=x2,⋯,Xn=xn)=i=1∏np(xi;θ).
称L(θ)L(\theta)L(θ)为似然函数,它是未知参数θ\thetaθ 的函数。
- 连续型总体
设连续型总体XXX的概率密度函数为f(x;θ)f(x; \theta)f(x;θ),其中θ∈Θ\theta \in \Thetaθ∈Θ 为未知参数,Θ\ThetaΘ 为θ\thetaθ 的所有可能取值范围(称为参数空间),则对于给定的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn,样本的联合概率密度为∏i=1nf(xi;θ)\prod_{i=1}^{n} f(x_i; \theta)∏i=1nf(xi;θ),从而随机变量XiX_iXi落在点xix_ixi的邻域(其半径为Δxi\Delta x_iΔxi)内的概率可近似为
∏i=1nf(xi;θ)Δxi. \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i.i=1∏nf(xi;θ)Δxi.
当xi(i=1,2,⋯ ,n)x_i (i=1,2,\cdots,n)xi(i=1,2,⋯,n)取定时,它是θ\thetaθ 的函数,记为L(θ)L(\theta)L(θ),称
L(θ)=∏i=1nf(xi;θ)Δxi,θ∈Θ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \ThetaL(θ)=i=1∏nf(xi;θ)Δxi,θ∈Θ
为似然函数。由于Δxi(i=1,2,⋯ ,n)\Delta x_i (i=1,2,\cdots,n)Δxi(i=1,2,⋯,n) 与θ\thetaθ 无关,故似然函数常取为
L(θ)=∏i=1nf(xi;θ),θ∈Θ. L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta.L(θ)=i=1∏nf(xi;θ),θ∈Θ.
最大似然估计法是,根据抽样得到的样本观测值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn来选取参数θ\thetaθ 的值,使样本观测值出现的可能性最大,即使似然函数L(θ)L(\theta)L(θ)达到最大值,从而求得参数θ\thetaθ 的最大似然估计θ^\hat{\theta}θ^。
当L(θ)L(\theta)L(θ)是可微函数时,要使L(θ)L(\theta)L(θ)取到最大值,θ\thetaθ 必须满足方程
dL(θ)dθ=0, \dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0,dθdL(θ)=0,
此方程称为似然方程。
而由于L(θ)L(\theta)L(θ)是nnn个函数的乘积,在求导时比较复杂,而lnL(θ)\ln L(\theta)lnL(θ)是L(θ)L(\theta)L(θ)的单调递增函数,lnL(θ)\ln L(\theta)lnL(θ)与L(θ)L(\theta)L(θ)在同一点处取得最大值,因此求解上述似然方程可以转化为求解方程
dlnL(θ)dθ=0, \dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0,dθdlnL(θ)=0,
这个方程称为对数似然方程。
当总体XXX的分布中有多个未知参数θ1,θ2,⋯ ,θm\theta_1, \theta_2, \cdots, \theta_mθ1,θ2,⋯,θm时,似然函数就是这些参数的多元函数L(θ1,θ2,⋯ ,θm)L(\theta_1, \theta_2, \cdots, \theta_m)L(θ1,θ2,⋯,θm),则相应地有对数似然方程组。
{∂lnL(θ1,θ2,⋯ ,θm)∂θ1=0,∂lnL(θ1,θ2,⋯ ,θm)∂θ2=0,⋮∂lnL(θ1,θ2,⋯ ,θm)∂θm=0, \begin{cases} \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases} ⎩
⎨
⎧∂θ1∂lnL(θ1,θ2,⋯,θm)=0,∂θ2∂lnL(θ1,θ2,⋯,θm)=0,⋮∂θm∂lnL(θ1,θ2,⋯,θm)=0,
由此方程组解得θ1,θ2,⋯ ,θm\theta_1, \theta_2, \cdots, \theta_mθ1,θ2,⋯,θm的最大似然估计值θ^1,θ^2,⋯ ,θ^m\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_mθ^1,θ^2,⋯,θ^m.
综上,可得求最大似然估计的一般步骤:
(1) 写出似然函数L(θ)=L(x1,x2,⋯ ,xn,θ)L(\theta) = L(x_1, x_2, \cdots, x_n, \theta)L(θ)=L(x1,x2,⋯,xn,θ);
(2) 令dL(θ)dθ=0\dfrac{{\rm d}L(\theta)}{{\rm d}\theta} = 0dθdL(θ)=0 或dlnL(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0dθdlnL(θ)=0,求出驻点;
(3) 判断并求出最大值点,用样本值代入就是参数的最大似然估计值。
注:
(1) 当似然函数关于未知参数不可微时,只能按最大似然原理计算最大值点;
(2) 上述的一般步骤对含有多个未知参数的情形同样适用,只需将求导数变为求偏导数;
(3) 称dlnL(θ)dθ=0\dfrac{{\rm d}\ln L(\theta)}{{\rm d}\theta} = 0dθdlnL(θ)=0 为对数似然方程,称∂lnL(θ1,θ2,⋯ ,θn)∂θi=0\dfrac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0∂θi∂lnL(θ1,θ2,⋯,θn)=0,i=1,2,⋯ ,ni=1,2,\cdots,ni=1,2,⋯,n 为对数似然方程组。
最大似然估计的不变性原理
设θ^\hat{\theta}θ^ 是θ\thetaθ 的最大似然估计,u=u(θ)u = u(\theta)u=u(θ) 是θ\thetaθ 的函数,且具有单值的反函数θ=θ(u)\theta = \theta(u)θ=θ(u),则u(θ^)u(\hat{\theta})u(θ^) 是u(θ)u(\theta)u(θ) 的最大似然估计。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)