基本概念

先梳理一下概率论中的几个基本概念。

事件
事件指某种情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出骰子为偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是集合

有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,以下关系都可以用集合中的韦恩图来理解,这里就不画了。
基本关系有 :

蕴含与相等:如果当A发生时B必发生 ,记 A ⊂ B A\subset B AB,当 A , B A,B AB相互蕴含时,称两事件相等,记 A = B A=B A=B

互斥与对立:在一次试验中不可能同时发生,但可以都不发生,有A就没有B,有B没有A,但是可以同时没有A和B。互斥事件的一个重要情况是“对立事件”,若 A A A为一事件,则事件 B={A不发生} ,记作 B = A ˉ B=\bar{A} B=Aˉ

事件和(或称并): A , B A,B A,B 中至少发生一个(并集),记作 C = A + B C=A+B C=A+B

事件积(或称并): A A A发生且 B B B发生(交集),记作 C = A B C=AB C=AB

事件差: A A A发生且 B B B不发生,记作 C = A − B = A B ˉ C=A-B=A \bar{B} C=AB=ABˉ

注意我们只是借用了算术中的运算符号来表达事件间的逻辑关系,算术的规则不一定能用于事件运算,这些符号不过是反映了事件间的一种逻辑关系,因而必须用逻辑思维的方式去验证。
由事件的基本关系可进一步定义出更复杂的关系,如条件概率、事件独立、全概率、贝叶斯等,其中相关公式可以自行查阅资料。

随机变量
随机变量就是试验结果的函数,它对试验结果的文字描述进行数字化,从而方便研究。比如抛一枚硬币,定义1=正面朝上 ,0=反面朝上,所以随机变量 X X X就代表抛硬币这个试验的结果,要么0要么1。
随机变量按其可能取的值的全体的性质,区分为两大类,一类是离散型随机变量,一类是连续型随机变量。

分布
研究一个随机变量的目的是为了进行预测,所以更重要的是它取各种值的概率如何,也就是分布如何,人们对生活中的现象进行规律总结,得到了一些比较常见的分布:
离散型随机变量常见的分布有:

  • 伯努利分布(两点分布,Bernoulli distribution)
  • 二项分布(binomial distribution)
  • 几何分布(geometric distribution)
  • 泊松分布(Poisson distribution)

连续型随机变量常见的分布有:

  • 正态分布(normal distribution)
  • 指数分布(exponential distribution)

这些分布之间相互做运算又有更加复杂的分布,这里墙裂推荐一本书 <<概率论与数理统计>> 陈希孺,看过的人都说棒!ヽ(ˋДˊ)ノ

分布是随机变量的概率性质最完整的刻画,而随机变量的数字特征,则是由随机变量的分布所决定的常数,它刻画了随机变量(或者说,刻画了其分布)的某一方面的性质,人们往往也比较关心这些指标,常见的有期望,方差、协方差,下面分别介绍公式。

期望

期望是随机变量取值的平均,以概率为权的对随机变量进行加权求和。

那么它和“平均数”有什么区别?
平均数是一个统计学的概念,是对一组已经观察到的样本进行统计的量,而期望是一个概率论的概念,是根据已经存在的概率分布来“预测”样本的平均值的量,由于概率是频率随样本趋于无穷的极限,所以期望其实就是平均数随样本趋于无穷的极限,两者是通过大数定理联系起来的。

性质
1. E ( X 1 + X 2 + ⋯ + X n ) = E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right) E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)(无条件成立)

2. E ( X 1 X 2 ⋯ X n ) = E ( X 1 ) E ( X 2 ) ⋯ E ( X n ) E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right) E(X1X2Xn)=E(X1)E(X2)E(Xn)(独立情况下成立)

计算
上述的定义是在我们知道概率分布的情况下计算期望的公式,但在实际应用中,我们往往是知道一组样本,我们需要通过样本来估计出总体,所以我们通常是用样本的统计量来估计这些数字特征。假如给定一个含有n个样本的集合,我们是通过样本平均值来估计期望:
X ˉ = ∑ i = 1 n X i n \bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n} Xˉ=ni=1nXi

方差

方差是用来衡量随机变量和其数学期望之间的偏离程度的量,通俗来说,就是用来衡量随机变量的波动程度,方差越大,那么这一组数据的波动幅度也就越大,稳定性就越小。

因为 X X X是随机的,所以偏离的量 X − E X X-EX XEX本身也是随机的,为了避免正负相互抵消,对其取平方作为偏离量,很自然方差就是该偏离量的期望,定义为: Var ⁡ ( X ) = E ( X − E X ) 2 = E ( X 2 ) − ( E X ) 2 \operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2} Var(X)=E(XEX)2=E(X2)(EX)2
性质
1.常数的方差为0
2.若C为常数,则 V a r ( X + C ) = V a r ( X ) Var(X+C)=Var(X) Var(X+C)=Var(X)
3.若C为常数,则 V a r ( C X ) = C 2 V a r ( X ) Var(CX)=C^2Var(X) Var(CX)=C2Var(X)
4.独立情况下, Var ⁡ ( X 1 + ⋯ + X n ) = Var ⁡ ( X 1 ) + ⋯ + Var ⁡ ( X n ) \operatorname{Var}\left(X_{1}+\cdots+X_{n}\right)=\operatorname{Var}\left(X_{1}\right)+\cdots+\operatorname{Var}\left(X_{n}\right) Var(X1++Xn)=Var(X1)++Var(Xn),注意区别期望是无条件成立

计算
假如给定一个含有n个样本的集合,则方差计算为:
σ 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 \sigma^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1} σ2=n1i=1n(XiXˉ)2
之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差(有严格的数学推导,可以查阅资料)

标准化
在机器学习中,我们的数据经常是一个向量 x x x,也就是多维随机变量,每个位置是一个特征,为了消除数据特征间 单位和量级差异的影响,往往需要对数据进行标准化,使每个特征的均值为 0、方差 1,这样特征间就是可比较的(以下符号都是向量):
x ′ = x − x ˉ σ x^{\prime}=\frac{x-\bar{x}}{\sigma} x=σxxˉ

协方差

协方差是多维随机变量的数字特征。在生活中,我们往往会从多个角度对一个事物进行观察,这些角度也就是所谓的“特征”,比如对于“人”,有身高、体重、胸围、臂长等特征,协方差就是用来衡量特征之前有没有相关关系的量。 以二维随机变量 ( X , Y ) (X, Y) (X,Y)为例,定义协方差为:
Cov ⁡ ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] = E ( X Y ) − ( E X ) ( E Y ) \operatorname{Cov}(X, Y)=E\left[\left(X- EX\right)\left(Y-EY\right)\right]=E\left(XY\right)-(E X)(EY) Cov(X,Y)=E[(XEX)(YEY)]=E(XY)(EX)(EY)
可以看到它的形式和方差非常相似,不过是吧其中一项换成了 ( Y − E Y ) (Y-EY) (YEY),由定义可得 Cov ⁡ ( X , X ) = V a r ( X ) \operatorname{Cov}(X, X)={Var}(X) Cov(X,X)=Var(X)

协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的,如果为负,则为负相关。从协方差可以引出“相关系数”的定义,衡量随机变量之相关程度更多的是用相关系数,可以看这篇文章 相关系数——皮尔逊相关系数的公式及其理解

性质
1.若 X , Y X, Y X,Y 独立,则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X, Y)=0 Cov(X,Y)=0,反过来不一定成立
2.第一条的例外:当( X , Y X, Y X,Y )为二维正态时, 由 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X, Y)=0 Cov(X,Y)=0 能推出 X , Y X, Y X,Y 独立
3.c为常数, Cov ⁡ ( c 1 X + c 2 , c 3 Y + c 4 ) = c 1 c 3 Cov ⁡ ( X , Y ) \operatorname{Cov}\left(c_{1} X+c_{2}, c_{3} Y+c_{4}\right)=c_{1} c_{3} \operatorname{Cov}(X, Y) Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)

计算
假如给定一个含有n个样本的集合,则协方差计算为:
Cov ⁡ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \operatorname{Cov}(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) Cov(x,y)=n11i=1n(xixˉ)(yiyˉ)

协方差矩阵
协方差也只能处理二维问题,维数多了就需要计算多个协方差,我们是用矩阵来进行组织,也就是协方差矩阵。以三维随机变量 ( x , y , z ) (x,y,z) (x,y,z)为例,则协方差矩阵为:
C = ( cov ⁡ ( x , x ) cov ⁡ ( x , y ) cov ⁡ ( x , z ) cov ⁡ ( y , x ) cov ⁡ ( y , y ) cov ⁡ ( y , z ) cov ⁡ ( z , x ) cov ⁡ ( z , y ) cov ⁡ ( z , z ) ) C=\left(\begin{array}{ccc} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right) C=cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差,协方差矩阵很有用,可以用来对数据进行更高级的分析,这里就不说了。

如果对你有帮助,请点个赞:-D

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐