多元正态分布(Multivariate normal distribution)
多元正态分布(Multivariate normal distribution)
前言
我们通常讨论正态分布都是在一元(univariate)的情况下,相信下面的定义大家都很熟悉了:假设随机变量
X
X
X服从正态分布,则
X
X
X具有概率密度函数:
f
(
x
)
=
(
2
π
σ
)
−
1
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x)=(\sqrt{2\pi}\sigma)^{-1}\text{exp}(-\frac{(x-\mu)^2}{2\sigma^2})
f(x)=(2πσ)−1exp(−2σ2(x−μ)2)
其中
μ
\mu
μ表示
X
X
X的均值,
σ
2
\sigma^2
σ2表示其方差。
有不少读者应该也看到过下面这个公式:
f
(
x
1
,
x
2
)
=
(
2
π
σ
1
σ
2
1
−
ρ
2
)
−
1
exp
[
−
1
2
(
1
−
ρ
2
)
(
(
x
1
−
μ
1
)
2
σ
1
2
−
2
ρ
(
x
1
−
μ
1
)
(
x
2
−
μ
2
)
σ
1
σ
2
+
(
x
2
−
μ
2
)
2
σ
2
2
)
]
\begin{aligned} f(x_1,x_2)=&(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2} )^{-1}\text{exp}[-\frac{1}{2(1-\rho^2)}(\frac{(x_1-\mu_1)^2}{\sigma_1^2}\\ &-\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2})] \end{aligned}
f(x1,x2)=(2πσ1σ21−ρ2)−1exp[−2(1−ρ2)1(σ12(x1−μ1)2−σ1σ22ρ(x1−μ1)(x2−μ2)+σ22(x2−μ2)2)]
没错,这正是将正态分布拓展到二维的情况,即:
X
=
[
X
1
,
X
2
]
T
X=[X_1,X_2]^T
X=[X1,X2]T
其中
X
1
X_1
X1,
X
2
X_2
X2分别服从正态分布。
有不少读者应该和我一样,看到这个二维的公式就头痛了,这他娘的一堆是啥玩意儿啊?老实说把上面的公式准确的打出来还花费了我不少功夫,可见公式之复杂,如果再往三元以上,简直不敢想象了。
由于许多本文许多内容我是从wikipedia看的,现学现卖,自己也是似懂非懂,不敢误人子弟,只能把自己确定的一些心得写一写,以作备忘,如果可以,也能给一些同有此问的后来者一些帮助。
多元正态分布
假设
X
=
(
X
1
,
X
2
,
⋯
,
X
k
)
T
X=(X_1,X_2,\cdots,X_k)^T
X=(X1,X2,⋯,Xk)T是一个
k
k
k维的列向量,服从多元正态分布,我们可以把它记做:
X
∼
N
(
μ
,
Σ
)
X\sim N(\mu,\Sigma)
X∼N(μ,Σ)
其中,
μ
=
E
(
X
)
=
(
μ
1
,
μ
2
,
⋯
,
μ
k
)
Σ
i
,
j
=
C
o
v
(
X
i
,
X
j
)
\begin{aligned} &\mu=E(X)=(\mu_1,\mu_2,\cdots,\mu_k)\\ &\Sigma_{i,j}=Cov(X_i,X_j) \end{aligned}
μ=E(X)=(μ1,μ2,⋯,μk)Σi,j=Cov(Xi,Xj)
对于多元随机变量,我们最关心的是它的概率函数,当上述协方差矩阵是正定的(positive definite),分布才有概率密度函数,这种情况被称为“非退化的”(non-degenerate)。这里笔者亦不甚解,猜测大概和协方差矩阵
Σ
\Sigma
Σ是否可逆有关。
如果多元正态分布的概率密度函数存在,它被定义如下:
f
(
x
1
,
x
2
,
⋯
,
x
k
)
=
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
(
2
π
)
k
∣
Σ
∣
f(x_1,x_2,\cdots,x_k)=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^k|\Sigma|}}
f(x1,x2,⋯,xk)=(2π)k∣Σ∣exp(−21(x−μ)TΣ−1(x−μ))
其中
∣
Σ
∣
|\Sigma|
∣Σ∣表示协方差矩阵的行列式(determinant)。
二元情况的推导
我们根据上面多元正态分布概率密度函数的定义,来求一求二元(bivariate)的情况,即令 k k k=2。
此时
x
=
(
x
1
,
x
2
)
T
,
μ
=
(
μ
1
,
μ
2
)
T
x=(x_1,x_2)^T,\mu=(\mu_1,\mu_2)^T
x=(x1,x2)T,μ=(μ1,μ2)T。
Σ
=
(
σ
1
2
ρ
σ
1
σ
2
ρ
σ
1
σ
2
σ
2
2
)
\Sigma= \begin{pmatrix} \sigma_1^2&\rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2&\sigma_2^2 \end{pmatrix}
Σ=(σ12ρσ1σ2ρσ1σ2σ22)
其中
ρ
\rho
ρ为相关系数,定义为:
ρ
=
C
o
v
(
X
1
,
X
2
)
σ
2
σ
2
\rho=\frac{Cov(X_1,X_2)}{\sigma_2\sigma_2}
ρ=σ2σ2Cov(X1,X2)
对于
2
×
2
2\times2
2×2的矩阵A,如果:
A
=
(
a
b
c
d
)
A= \begin{pmatrix} a&b\\ c&d \end{pmatrix}
A=(acbd)
通常有:
A
−
1
=
1
a
d
−
b
c
(
d
−
b
−
c
a
)
A^{-1}=\frac{1}{ad-bc} \begin{pmatrix} d&-b\\ -c&a \end{pmatrix}
A−1=ad−bc1(d−c−ba)
根据上公式求得;
Σ
−
1
=
1
(
1
−
ρ
2
)
σ
1
2
σ
2
2
(
σ
2
2
−
ρ
σ
1
σ
2
−
ρ
σ
1
σ
2
σ
1
2
)
\Sigma^{-1} =\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix}
Σ−1=(1−ρ2)σ12σ221(σ22−ρσ1σ2−ρσ1σ2σ12)
又:
∣
Σ
∣
=
(
1
−
ρ
2
)
σ
1
2
σ
2
2
|\Sigma|=(1-\rho^2)\sigma_1^2\sigma_2^2
∣Σ∣=(1−ρ2)σ12σ22
代入上式得:
f
(
x
1
,
x
2
)
=
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
(
2
π
)
2
∣
Σ
∣
=
1
(
2
π
2
)
(
1
−
ρ
2
)
σ
1
2
σ
2
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
=
1
2
π
σ
1
σ
2
1
−
ρ
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
\begin{aligned} f(x_1,x_2)&=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^2|\Sigma|}}\\ &=\frac{1}{\sqrt{(2\pi^2)(1-\rho^2)\sigma_1^2\sigma_2^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ \end{aligned}
f(x1,x2)=(2π)2∣Σ∣exp(−21(x−μ)TΣ−1(x−μ))=(2π2)(1−ρ2)σ12σ221exp(−21(x−μ)TΣ−1(x−μ))=2πσ1σ21−ρ21exp(−21(x−μ)TΣ−1(x−μ))
其中:
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
(
x
1
−
μ
1
,
x
2
−
μ
2
)
1
(
1
−
ρ
2
)
σ
1
2
σ
2
2
(
σ
2
2
−
ρ
σ
1
σ
2
−
ρ
σ
1
σ
2
σ
1
2
)
(
x
1
−
μ
1
,
x
2
−
μ
2
)
T
=
1
(
1
−
ρ
2
)
σ
1
2
σ
2
2
(
σ
2
2
(
x
1
−
μ
1
)
−
ρ
σ
1
σ
2
(
x
2
−
μ
2
)
,
σ
1
2
(
x
2
−
μ
2
)
−
ρ
σ
1
σ
2
(
x
2
−
μ
2
)
)
(
x
1
−
μ
1
,
x
2
−
μ
2
)
T
=
1
(
1
−
ρ
2
)
σ
1
2
σ
2
2
[
σ
2
2
(
x
1
−
μ
1
)
2
−
2
ρ
σ
1
σ
2
(
x
1
−
μ
1
)
(
x
2
−
μ
2
)
+
σ
1
2
(
x
2
−
μ
2
)
2
]
=
1
(
1
−
ρ
2
)
[
(
x
1
−
μ
1
2
)
σ
1
2
−
2
ρ
(
x
1
−
μ
1
)
(
x
2
−
μ
2
)
σ
1
σ
2
+
(
x
2
−
μ
2
2
)
σ
2
2
]
\begin{aligned} &(x-\mu)^T\Sigma^{-1}(x-\mu)\\ &=(x_1-\mu_1,x_2-\mu_2) \frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2} \begin{pmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{pmatrix} (x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}(\sigma_2^2(x_1-\mu_1)-\rho\sigma_1\sigma_2(x_2-\mu_2),\sigma_1^2(x_2-\mu_2)-\rho\sigma_1\sigma_2(x_2-\mu_2))(x_1-\mu_1,x_2-\mu_2)^T\\ &=\frac{1}{(1-\rho^2)\sigma_1^2\sigma_2^2}[\sigma_2^2(x_1-\mu_1)^2-2\rho\sigma_1\sigma_2(x_1-\mu_1)(x_2-\mu_2)+\sigma_1^2(x_2-\mu_2)^2]\\ &=\frac{1}{(1-\rho^2)}[\frac{(x_1-\mu_1^2)}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2^2)}{\sigma_2^2}] \end{aligned}
(x−μ)TΣ−1(x−μ)=(x1−μ1,x2−μ2)(1−ρ2)σ12σ221(σ22−ρσ1σ2−ρσ1σ2σ12)(x1−μ1,x2−μ2)T=(1−ρ2)σ12σ221(σ22(x1−μ1)−ρσ1σ2(x2−μ2),σ12(x2−μ2)−ρσ1σ2(x2−μ2))(x1−μ1,x2−μ2)T=(1−ρ2)σ12σ221[σ22(x1−μ1)2−2ρσ1σ2(x1−μ1)(x2−μ2)+σ12(x2−μ2)2]=(1−ρ2)1[σ12(x1−μ12)−2ρσ1σ2(x1−μ1)(x2−μ2)+σ22(x2−μ22)]
和上面的式子整合一下即可的到二元变量的概率密度。
参考资料
[1] Multivariate normal distribution
[2] 概率论与数理统计,陈希孺,中国科学技术大学出版社
更多推荐
所有评论(0)