- 中文名
- 皮尔逊相关系数
- 外文名
- Pearson correlation coefficient
- 别 名
- 皮尔逊积矩相关系数
- 相关人物
- 卡尔·皮尔逊;弗朗西斯·高尔顿
- 学 科
- 统计学
在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。
图1展示了几组 的点集,以及各个点集中 和 之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量 是0。
总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的: 。
皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把 移动到 和把Y移动到 ,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立),其中a、b、c和d是常数。我们发现更一般的线性变换则会改变相关系数:
由于 ,则 , 同理;
故相关系数也可以表示成
对于样本皮尔逊相关系数:
以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且 随着 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且 随着 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
更一般的, 我们发现,当且仅当 和 均落在他们各自的均值的同一侧, 则 的值为正。 也就是说,如果 和 同时趋向于大于或小于其各自的均值,则相关系数为正。 如果 和 趋向于落在其均值的相反一侧,则相关系数为负。
1.几何学的解释
对于没有中心化的数据, 相关系数与两条可能的回归线 (红)和 (蓝)夹角的余弦值一致。
一般倾向于使用非中心化的相关系数, 比较如下:
例如,有5个国家的国民生产总值分别为10,20,30,50和80亿美元。假设这5个国家 (顺序相同) 的贫困百分比分别为11%,12%,13%,15%和18%。令x和y分别为包含上述5个数据的向量:x = (1, 2, 3, 5, 8) 和y ,= (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角 ,未中心化的相关系数是:
2.皮尔逊距离
定义式为 ,其值的区间为 。
将 围绕它们平均值上的变化分解为:
其中 是作回归分析时的适应值。 整理后得:
等式左边表示由非 引起的变化,右边两个被加数表示由 引起的 的变化。
接下来, 我们利用最小方差回归模型, 使 和 的样本协方差为0。 于是,观测数据和适应值的样本相关系数可以被写成 [1]
于是
等式表示 的线性方程会引起 的平均变化。