协方差、样本协方差、协方差矩阵、相关系数详解（python代码）

虾米小馄饨

27560人浏览 · 2021-04-20 16:09:03

虾米小馄饨 · 2021-04-20 16:09:03 发布

对于一个随机变量的分布特征，可以由均值、方差、标准差等进行描述。而对于两个随机变量的情况，有协方差和相关系数来描述两个随机变量的相互关系。

本文主要参考概率论与数理统计的教科书，整理了协方差、样本协方差、协方差矩阵、相关系数的概念解释和代码。

协方差（covariance）

协方差的概念来自概率论，实际应用中的样本协方差则与统计学概念有关。

协方差反应了随机变量 $X 、 Y$ 之间“协同”变化的关系。也可以说，协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。

当 $Y$ 就是 $X$ 时， $c o v (X, Y) = c o v (X) = v a r (X)$ 协方差即为方差，这就是我们称其为协方差的原因。¹

协方差定义：
$cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} =E(XY)-E(X)E(Y)$

直观解释

若 $c o v (X, Y) > 0$ ，即事件 $\{X>E(X)\}\cap\{Y>E(Y)\}$ 或 $\{X<E(X)\}\cap\{Y<E(Y)\}$ 发生的可能性更大，说明 $X$ 和 $Y$ 均有同时大于或同时小于各自平均值的趋势。

协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。

如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。

样本协方差（sample covariance）

实际应用中，总体 $X$ 的均值 $\mu$ 、方差 $\sigma^2$ 均未知， $X_1,X_2,...,X_n)$ 为取自该总体的一个样本，则样本均值 $\bar{X}$ 是 $\mu$ 的无偏估计量，样本方差 $S^2$ 是 $\sigma^2$ 的无偏估计量。

同理，总体 $X 、 Y$ 的协方差也是一个未知参数，而样本协方差是基于数据得到的估计量。样本协方差是总体协方差的无偏估计。

样本协方差可以用下式计算：
$S_{XY}=\frac{\textstyle\sum_{i=1}^n{(X_i-\bar{X})(Y_i-\bar{Y})}}{n-1}$
样本方差、样本协方差的分母是n-1而不是n的解释和数学推导可以看下这篇文章。

协方差矩阵（covariance matrix）

随机向量 $\bold{x}\in\R^{n}$ 的协方差矩阵是一个 $n \times n$ 的矩阵，并且满足：
$cov(\bold{x})_{i,j}=cov(x_i,x_j)$
协方差矩阵的对角元是方差：
$cov(x_i,x_i)=var(x_i)$

代码示例

基于numpy的cov函数²，可以得到协方差矩阵：

import numpy as np
x1 = [-2.1, -1,  4.3]
x2 = [3,  1.1,  0.12]

X = np.stack((x1, x2), axis=0)# 每一行作为一个变量
np.cov(X)
#[out]:array([[11.71      , -4.286     ], 
#       	  [-4.286     ,  2.144133]])
np.cov(x1, x2)
#[out]:array([[11.71      , -4.286     ], 
#       	  [-4.286     ,  2.144133]])
np.cov(x1)
#[out]:array(11.71)

或者用公式计算：

def de_mean(x):
    xmean = np.mean(x)
    return [xi - xmean for xi in x]

def covariance(x, y):
    n = len(x)
    return np.dot(de_mean(x), de_mean(y)) / (n-1)

covariance(x1,x2)
#[out]: -4.2860000000000005

相关系数（Pearson Correlation Coefficient）

协方差可以描述随机变量之间协同变化的关系，但在使用中存在这样一个问题：例如，要讨论新生婴儿的身高X和体重Y的协方差，若采用两种不同的单位，米和千克或者厘米和克，后者协方差是前者的100000倍！由于量纲的不同导致X与Y的协方差前后不同。

为避免这样的情形发生，将随机变量标准化， $X^*=\frac{X-E(X)}{\sqrt{D(X)}},Y^*=\frac{Y-E(Y)}{\sqrt{D(Y)}}$ ，再求协方差 $cov(X^*,Y^*)$ ，这就是随机变量X和Y的相关系数，又称为标准化协方差。¹

这是统计学家Pearson提出的用于统计两个随机变量之间线性相关程度的统计量，也叫皮尔逊相关系数（Pearson Correlation Coefficient）。

随机变量 $X$ 和 $Y$ 的相关系数：
$\rho_{XY}=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$

设二维随机变量 (X，Y) 的相关系数 $ρ_{XY}$ 存在，则：

当 $ρ_{XY}|=1$ 时，（X，Y）的取值（x，y）在直线y=ax+b上的概率为1，称X与Y完全线性相关；
当 $ρ_{XY}$ >0时，称X与Y正线性相关；
当 $ρ_{XY}$ <0时，称X与Y负线性相关。

直观解释

与协方差相比，相关系数（correlation）将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

代码实现

对于矩阵a,numpy.corrcoef(a)可计算行与行之间的相关系数，行为一个随机变量，列为其观测值，输出为相关系数矩阵。³

import numpy as np
x1 = [-2.1, -1,  4.3]
x2 = [3,  1.1,  0.12]

X = np.stack((x1, x2), axis=0)# 每一行作为一个变量
np.corrcoef(X)
#[out]: array([[ 1.        , -0.85535781],
      		   [-0.85535781,  1.        ]])

除了numpy的函数，pandas对象也装配了常用的数学、统计学方法。这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值（如总和或平均值）。与NumPy数组中的类似方法相比，它们内建了处理缺失值的功能。⁴

pandas中Series的corr方法计算的是两个Series中重叠的、非NA的、按索引对齐的值的相关性。cov计算的是协方差。

pandas中DataFrame的corr和cov方法会分别以DataFrame的形式返回相关性和协方差矩阵。⁵

import pandas as pd

df = pd.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
                  columns=['dogs', 'cats'])
                  
"""
计算相关系数，支持三种方法
pearson : standard correlation coefficient
kendall : Kendall Tau correlation coefficient
spearman : Spearman rank correlation
"""
df.corr(method='pearson')

"""
计算协方差矩阵
"""
df.cov()

输出：
在这里插入图片描述

《概率论与数理统计》 ↩︎ ↩︎
https://numpy.org/doc/stable/reference/generated/numpy.cov.html ↩︎
https://zhuanlan.zhihu.com/p/35122515 ↩︎
《利用python进行数据分析》 ↩︎
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html ↩︎

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m