概率论:期望、方差、协方差及相关系数
目录
在学习概率论的时候,发现方差、期望、协方差等概念可以非常直观地联系物理含义理解,于是本篇文章我们不谈复杂的数学推导,从物理角度直观的理解并记忆上述概念。
一、期望:重心
(1)一维随机变量的期望及其物理含义
所以以后我们在理解一维随机变量的期望的时候,请自信的说出:哦,不就是重心吗?轻轻松松!
(2)二维随机变量的期望及其物理含义
二维随机变量有X、Y两个方向上的随机变量,仍然可以从重心的角度理解:单独求出E(X)和E(Y),他们分别是x、y方向上的重心。即把二维随机变量当做一个平面薄面,现在薄面的总质量是1,问你这个薄面的重心在哪?
只需要将X方向和Y方向的重心分别提取出来即可组成一个坐标点(E(X),E(Y)),这个就称为二维随机变量的重心。

(3)期望的性质
虽然分别把X、Y方向的重心提出来可以得到整个平面的重心,是期望的常规用法。
但是有时我们会求解E(X·Y)这样的期望,这个在物理上并没有什么直观的含义,仅仅在数学中存在。不过它还会和后续的协方差产生重要的关联,这里我们了解一下他的独立时候的性质即可。
二、方差:转动惯量
方差是用来翻译一个随机变量的各个分布点,偏离重心的程度。比如一维随机变量中,不同情况的重心分布居然是一样的:一个杆子的重量基本在重心附近;另一个杆子的重量却在杆子的两侧边缘处,由于期望是平均的定义,他们平均后重心回归到杆子的中央区域了。
这种情况下人们无法直观的从期望看到分布点的离散、集中情况,于是诞生了方差。同时我们仍然有一个物理现象去解释方差---转动惯量。
(1)转动惯量是啥?(物理基础)
我们先了解一下啥是转动惯量(学过大学物理的可以直接跳过):

(2)基于转动惯量理解一维随机变量的方差
从转动惯量的例子中我们可以看出:一个杆子的转动惯量(方差)越大,那么他就越难转起来。
所以以后有人问你什么是方差:你可以很自然的回答:就类似转动惯量,方差越大,重量分布越离散、越偏外侧,使得这个杆子越难转起来。方差越小,重量分布越偏向重心,杆子越容易转起来。
(3)方差真正的数学含义
方差本身是用来刻画一堆数据点偏离理想点(重心)的程度,最开始人们想到直接用距离(即相减再求绝对值)来表示,但是这个无法惩罚边缘数据,即不管你有多么离散,人们都无法敏感的察觉到你的数据点偏离太多工程要求了,从而造成设备的损坏。
而且由于绝对值的存在,使得函数不得不进行分段讨论,无法方便的求导、积分运算,在数学上天然不喜欢绝对值的形式。
于是人们想到用平方来表示偏离程度,一方面他起到偏离程度的估算,另一方面他能惩罚离谱的边缘数据点(即上述例子中的转动惯量就是对于转动难易程度的惩罚),让人们快速察觉到有问题。最重要的是x²可以很方便的求导、积分运算,所以以后人们在描述一堆数据点的离散程度时,都会选择用方差。
(4)方差的计算公式
以后在计算方差的时候,直接使用口诀:平方的期望-期望的平方即可。
(5)方差的性质
三、协方差与线性相关系数
(1)协方差的演化路径
此时随机变量变成了X、Y两个,人们早期只是想用一个式子联合的评判两个随机变量的方差,一般想法可以分为方差和、方差积。后续他们分别分化为了两条路径,方差和一直被广泛使用,而方差积则被协方差上位替代了。

(2)协方差的诞生与计算公式
现在我们有两种选择去判断两个随机变量的联合偏离程度,但是我不再满足于此,而是想要进一步判断两个随机变量的正负相关性呢?

可以很明显的看出来:正相关性是在1、3象限分布的;而负相关性则是在2、4象限分布的。而什么能表示这俩呢?乘法!
不过我们之前用于表示联合的偏差时有两条路径:方差和与方差积。此时为了迎合相关性,我们会选用方差积。最后由于方差积都是正数,为了还原到相关性本身的正负性,我们对其进行"开方"(实则就是用两个随机变量的偏差距离直接相乘)。


这个计算式可以联系到"和的方差"性质:D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
(3)线性相关系数ρ
由于不同度量下的协方差数值差异很大,比如重心在(1,1)处,而你的数据点在(3,3),则计算出来的协方差为2*2=4。而另外一种场景的重心在(1000,1000),而数据点在(1100,1100),它的协方差就是100*100=10000。明显后者的协方差比前者大,但是实际工程中后者却更加接近重心,即不同单位度量体系下,需要进行归一化处理,去评判他们的偏差系数百分比。
考虑到之前用方差积时候,如何能让其归一化成1呢?是不是除以它本身即可。

但是由于方差积始终是正数的乘积,所以分子分母不会有任何区别,归一化永远只能是1。而将这种思路用于协方差中则刚刚好:分子有正有负,会抵消一部分使之≤1,而分母则是两个标准差的积。最终的相关系数ρ始终处于[-1,1]之间。
这个相关系数是皮尔逊最早发明的,他仅仅是想得到一个归一化的判定方式,让不同度量体系下的偏差都能很直观的看出来。但是后来人们对其进一步分析发现,越接近于1、-1的相关系数ρ,离散点就越接近于一条直线(Y=K·X,这里的斜率K可以自由变化)
所以后续也把这个相关系数ρ称为线性相关系数。注意只能评判线性的相关性,曲线的则失效!
(4)协方差的性质
这里的特性都是十分容易推导的,大家也不一定非要记忆,看到的时候自己会推导即可。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐






所有评论(0)