皮尔森相关系数(Pearson correlation coefficient)

chao2016

160763人浏览 · 2018-07-04 19:38:02

chao2016 · 2018-07-04 19:38:02 发布

概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r值介于-1到1之间，绝对值越大表明相关性越强。

定义

总体相关系数ρ定义为两个变量X、Y之间的协方差和两者标准差乘积的比值，如下：
这里写图片描述
估算样本的协方差和标准差，可得到样本相关系数（即样本皮尔森相关系数），常用r表示：

r还可以由(Xi,Yi)样本点的标准分数均值估计得到与上式等价的表达式：

其中为Xi样本的标准分数、样本均值和样本标准差，n为样本数量。

物理意义

皮尔森相关系数反映了两个变量的线性相关性的强弱程度，r的绝对值越大说明相关性越强。

当r>0时，表明两个变量正相关，即一个变量值越大则另一个变量值也会越大；
当r<0时，表明两个变量负相关，即一个变量值越大则另一个变量值反而会越小；
当r=0时，表明两个变量不是线性相关的（注意只是非线性相关），但是可能存在其他方式的相关性（比如曲线方式）；
当r=1和-1时，意味着两个变量X和Y可以很好的由直线方程来描述，所有样本点都很好的落在一条直线上。

皮尔森距离

通过皮尔森系数定义：
这里写图片描述
皮尔森系数范围为[-1,1]，因此皮尔森距离范围为[0,2]。

机器学习中的应用

皮尔森（pearson）相关系数、斯皮尔曼（spearman）相关系数和肯德尔（kendall）相关系数并称为统计学三大相关系数。其中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。pearson是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

Pearson相关系数的计算方法有三种形式，如下：
这里写图片描述

皮尔森相关系数是衡量线性关联性的程度，p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。

代码实现

python实现公式3的代码：

def pearson(vector1, vector2):
    n = len(vector1)
    #simple sums
    sum1 = sum(float(vector1[i]) for i in range(n))
    sum2 = sum(float(vector2[i]) for i in range(n))
    #sum up the squares
    sum1_pow = sum([pow(v, 2.0) for v in vector1])
    sum2_pow = sum([pow(v, 2.0) for v in vector2])
    #sum up the products
    p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
    #分子num，分母den
    num = p_sum - (sum1*sum2/n)
    den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
    if den == 0:
        return 0.0
    return num/den

python实现公式1的代码：

# 计算特征和类的平均值
def calcMean(x,y):
    sum_x = sum(x)
    sum_y = sum(y)
    n = len(x)
    x_mean = float(sum_x+0.0)/n
    y_mean = float(sum_y+0.0)/n
    return x_mean,y_mean

# 计算Pearson系数
def calcPearson(x,y):
    x_mean,y_mean = calcMean(x,y)   # 计算x,y向量平均值
    n = len(x)
    sumTop = 0.0
    sumBottom = 0.0
    x_pow = 0.0
    y_pow = 0.0
    for i in range(n):
        sumTop += (x[i]-x_mean)*(y[i]-y_mean)
    for i in range(n):
        x_pow += math.pow(x[i]-x_mean,2)
    for i in range(n):
        y_pow += math.pow(y[i]-y_mean,2)
    sumBottom = math.sqrt(x_pow*y_pow)
    p = sumTop/sumBottom
    return p

# 计算每个特征的Pearson系数，返回数组  
def calcAttribute(dataSet):  
    prr = []  
    n,m = shape(dataSet)    # 获取数据集行数和列数  
    x = [0] * n             # 初始化特征x和类别y向量  
    y = [0] * n  
    for i in range(n):      # 得到类向量  
        y[i] = dataSet[i][m-1]  
    for j in range(m-1):    # 获取每个特征的向量，并计算Pearson系数，存入到列表中  
        for k in range(n):  
            x[k] = dataSet[k][j]  
        prr.append(calcSpearman(x,y))  
    return prr

阅读全文

AI总结

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

颠覆开发效率！国内首个开源微服务编排框架Juggle入驻GitCode

GitCode 开源社区

倒计时！中关村科学城工业软件创新暨开源峰会28日启幕，会议亮点抢先看

GitCode 开源社区

ollama/ollama 开源项目洞察报告

GitCode 开源社区

所有评论(0)

chao2016

@chao2016

已为社区贡献2条内容

相关推荐查看更多

public-apis

185

这个项目收集了大量公开可用的API接口，适合开发者查找和利用各类公开API来快速构建应用程序或获取所需数据，覆盖范围广泛，从社交、新闻到天气、地图等各种领域。

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

awesome-chatgpt-prompts

这个项目是一个集合了各种提示词的仓库，帮助我们更好地使用ChatGPT和其他大型语言模型（LLM）工具，如 Claude、Gemini、Hugging Face Chat、Llama、Mistral。源项目地址： https://github.com/f/awesome-chatgpt-prompts