带你深入理解期望、方差、协方差的含义
基本概念
先梳理一下概率论中的几个基本概念。
事件
事件指某种情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出骰子为偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是集合。
有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,以下关系都可以用集合中的韦恩图来理解,这里就不画了。
基本关系有 :
蕴含与相等:如果当A发生时B必发生 ,记 A ⊂ B A\subset B A⊂B,当 A , B A,B A,B相互蕴含时,称两事件相等,记 A = B A=B A=B
互斥与对立:在一次试验中不可能同时发生,但可以都不发生,有A就没有B,有B没有A,但是可以同时没有A和B。互斥事件的一个重要情况是“对立事件”,若 A A A为一事件,则事件 B={A不发生} ,记作 B = A ˉ B=\bar{A} B=Aˉ
事件和(或称并): A , B A,B A,B 中至少发生一个(并集),记作 C = A + B C=A+B C=A+B
事件积(或称并): A A A发生且 B B B发生(交集),记作 C = A B C=AB C=AB
事件差: A A A发生且 B B B不发生,记作 C = A − B = A B ˉ C=A-B=A \bar{B} C=A−B=ABˉ
注意我们只是借用了算术中的运算符号来表达事件间的逻辑关系,算术的规则不一定能用于事件运算,这些符号不过是反映了事件间的一种逻辑关系,因而必须用逻辑思维的方式去验证。
由事件的基本关系可进一步定义出更复杂的关系,如条件概率、事件独立、全概率、贝叶斯等,其中相关公式可以自行查阅资料。
随机变量
随机变量就是试验结果的函数,它对试验结果的文字描述进行数字化,从而方便研究。比如抛一枚硬币,定义1=正面朝上 ,0=反面朝上,所以随机变量
X
X
X就代表抛硬币这个试验的结果,要么0要么1。
随机变量按其可能取的值的全体的性质,区分为两大类,一类是离散型随机变量,一类是连续型随机变量。
分布
研究一个随机变量的目的是为了进行预测,所以更重要的是它取各种值的概率如何,也就是分布如何,人们对生活中的现象进行规律总结,得到了一些比较常见的分布:
离散型随机变量常见的分布有:
- 伯努利分布(两点分布,Bernoulli distribution)
- 二项分布(binomial distribution)
- 几何分布(geometric distribution)
- 泊松分布(Poisson distribution)
连续型随机变量常见的分布有:
- 正态分布(normal distribution)
- 指数分布(exponential distribution)
这些分布之间相互做运算又有更加复杂的分布,这里墙裂推荐一本书 <<概率论与数理统计>> 陈希孺,看过的人都说棒!ヽ(ˋДˊ)ノ
分布是随机变量的概率性质最完整的刻画,而随机变量的数字特征,则是由随机变量的分布所决定的常数,它刻画了随机变量(或者说,刻画了其分布)的某一方面的性质,人们往往也比较关心这些指标,常见的有期望,方差、协方差,下面分别介绍公式。
期望
期望是随机变量取值的平均,以概率为权的对随机变量进行加权求和。
那么它和“平均数”有什么区别?
平均数是一个统计学的概念,是对一组已经观察到的样本进行统计的量,而期望是一个概率论的概念,是根据已经存在的概率分布来“预测”样本的平均值的量,由于概率是频率随样本趋于无穷的极限,所以期望其实就是平均数随样本趋于无穷的极限,两者是通过大数定理联系起来的。
性质
1.
E
(
X
1
+
X
2
+
⋯
+
X
n
)
=
E
(
X
1
)
+
E
(
X
2
)
+
⋯
+
E
(
X
n
)
E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)
E(X1+X2+⋯+Xn)=E(X1)+E(X2)+⋯+E(Xn)(无条件成立)
2. E ( X 1 X 2 ⋯ X n ) = E ( X 1 ) E ( X 2 ) ⋯ E ( X n ) E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right) E(X1X2⋯Xn)=E(X1)E(X2)⋯E(Xn)(独立情况下成立)
计算
上述的定义是在我们知道概率分布的情况下计算期望的公式,但在实际应用中,我们往往是知道一组样本,我们需要通过样本来估计出总体,所以我们通常是用样本的统计量来估计这些数字特征。假如给定一个含有n个样本的集合,我们是通过样本平均值来估计期望:
X
ˉ
=
∑
i
=
1
n
X
i
n
\bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n}
Xˉ=n∑i=1nXi
方差
方差是用来衡量随机变量和其数学期望之间的偏离程度的量,通俗来说,就是用来衡量随机变量的波动程度,方差越大,那么这一组数据的波动幅度也就越大,稳定性就越小。
因为
X
X
X是随机的,所以偏离的量
X
−
E
X
X-EX
X−EX本身也是随机的,为了避免正负相互抵消,对其取平方作为偏离量,很自然方差就是该偏离量的期望,定义为:
Var
(
X
)
=
E
(
X
−
E
X
)
2
=
E
(
X
2
)
−
(
E
X
)
2
\operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2}
Var(X)=E(X−EX)2=E(X2)−(EX)2
性质
1.常数的方差为0
2.若C为常数,则
V
a
r
(
X
+
C
)
=
V
a
r
(
X
)
Var(X+C)=Var(X)
Var(X+C)=Var(X)
3.若C为常数,则
V
a
r
(
C
X
)
=
C
2
V
a
r
(
X
)
Var(CX)=C^2Var(X)
Var(CX)=C2Var(X)
4.独立情况下,
Var
(
X
1
+
⋯
+
X
n
)
=
Var
(
X
1
)
+
⋯
+
Var
(
X
n
)
\operatorname{Var}\left(X_{1}+\cdots+X_{n}\right)=\operatorname{Var}\left(X_{1}\right)+\cdots+\operatorname{Var}\left(X_{n}\right)
Var(X1+⋯+Xn)=Var(X1)+⋯+Var(Xn),注意区别期望是无条件成立
计算
假如给定一个含有n个样本的集合,则方差计算为:
σ
2
=
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
n
−
1
\sigma^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}
σ2=n−1∑i=1n(Xi−Xˉ)2
之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差(有严格的数学推导,可以查阅资料)
标准化
在机器学习中,我们的数据经常是一个向量
x
x
x,也就是多维随机变量,每个位置是一个特征,为了消除数据特征间 单位和量级差异的影响,往往需要对数据进行标准化,使每个特征的均值为 0、方差 1,这样特征间就是可比较的(以下符号都是向量):
x
′
=
x
−
x
ˉ
σ
x^{\prime}=\frac{x-\bar{x}}{\sigma}
x′=σx−xˉ
协方差
协方差是多维随机变量的数字特征。在生活中,我们往往会从多个角度对一个事物进行观察,这些角度也就是所谓的“特征”,比如对于“人”,有身高、体重、胸围、臂长等特征,协方差就是用来衡量特征之前有没有相关关系的量。 以二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y)为例,定义协方差为:
Cov
(
X
,
Y
)
=
E
[
(
X
−
E
X
)
(
Y
−
E
Y
)
]
=
E
(
X
Y
)
−
(
E
X
)
(
E
Y
)
\operatorname{Cov}(X, Y)=E\left[\left(X- EX\right)\left(Y-EY\right)\right]=E\left(XY\right)-(E X)(EY)
Cov(X,Y)=E[(X−EX)(Y−EY)]=E(XY)−(EX)(EY)
可以看到它的形式和方差非常相似,不过是吧其中一项换成了
(
Y
−
E
Y
)
(Y-EY)
(Y−EY),由定义可得
Cov
(
X
,
X
)
=
V
a
r
(
X
)
\operatorname{Cov}(X, X)={Var}(X)
Cov(X,X)=Var(X)
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的,如果为负,则为负相关。从协方差可以引出“相关系数”的定义,衡量随机变量之相关程度更多的是用相关系数,可以看这篇文章 相关系数——皮尔逊相关系数的公式及其理解
性质
1.若
X
,
Y
X, Y
X,Y 独立,则
Cov
(
X
,
Y
)
=
0
\operatorname{Cov}(X, Y)=0
Cov(X,Y)=0,反过来不一定成立
2.第一条的例外:当(
X
,
Y
X, Y
X,Y )为二维正态时, 由
Cov
(
X
,
Y
)
=
0
\operatorname{Cov}(X, Y)=0
Cov(X,Y)=0 能推出
X
,
Y
X, Y
X,Y 独立
3.c为常数,
Cov
(
c
1
X
+
c
2
,
c
3
Y
+
c
4
)
=
c
1
c
3
Cov
(
X
,
Y
)
\operatorname{Cov}\left(c_{1} X+c_{2}, c_{3} Y+c_{4}\right)=c_{1} c_{3} \operatorname{Cov}(X, Y)
Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)
计算
假如给定一个含有n个样本的集合,则协方差计算为:
Cov
(
x
,
y
)
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
\operatorname{Cov}(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)
Cov(x,y)=n−11i=1∑n(xi−xˉ)(yi−yˉ)
协方差矩阵
协方差也只能处理二维问题,维数多了就需要计算多个协方差,我们是用矩阵来进行组织,也就是协方差矩阵。以三维随机变量
(
x
,
y
,
z
)
(x,y,z)
(x,y,z)为例,则协方差矩阵为:
C
=
(
cov
(
x
,
x
)
cov
(
x
,
y
)
cov
(
x
,
z
)
cov
(
y
,
x
)
cov
(
y
,
y
)
cov
(
y
,
z
)
cov
(
z
,
x
)
cov
(
z
,
y
)
cov
(
z
,
z
)
)
C=\left(\begin{array}{ccc} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right)
C=⎝⎛cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)⎠⎞
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差,协方差矩阵很有用,可以用来对数据进行更高级的分析,这里就不说了。
如果对你有帮助,请点个赞:-D
更多推荐
所有评论(0)