相关系数小总结

0.072字数 996阅读 2226

相关系数用一种量化的方式评价两个或者多个随机变量之间的关系。这里总结三种相关系数的计算方式。

Pearson

用来衡量变量X和Y之间的线性关系。它的全称叫做Pearson product-moment correlation coefficient(好长~),简称PPMCC或者PCC。它的取值在1和-1之间。1表示完全正相关,0表示完全不相关,-1表示完全负相关,如下面在wikipedia上拔下来的图。

Paste_Image.png

Pearson相关系数的计算方式是这样的:
![](http://www.forkosh.com/mathtex.cgi? \rho = \frac{cov(X,Y)}{\sigma_X\sigma_Y})
也就是协方差除以标准差之积。
从网上找的一个相关系数的分类,不知道出自哪里,暂且一看:

  • 0.1以下 没有关系
  • 0.10-0.29 微弱关系
  • 0.30-0.49 中等关系
  • 0.50以上 强关联

pearson相关系数使用时需要注意的一些情况:

  1. XY联合分布符合正太分布
  2. 对异常点敏感
  3. 只有X和Y完全线性相关的时候,pearson系数才会达到完美的1或者-1。这一点与后面的Spearman Rank系数不同,后者并不需要线性相关这个条件。
Kendall Tau

is a statistic used to measure the ordinal association between two measured quantities.直接看公式比较容易理解:
![](http://www.forkosh.com/mathtex.cgi? \tau = \frac{nc - nd}{n(n-1)/2})
即有序对儿(nc)的数量减去无序对儿(nd)的数量除以总的对儿数。比如
x y
1 6
4 2
5 3
X和Y形成的对儿:
(1,6) (4,2) 无序
(1,6) (5,3) 无序
(4,2) (5,3) 有序
所以它们的Tau系数是(1-2)/3=-0.33
容易看出,如果两个序列之间排序对应一致的时候Tau系数为1,完全相反时为-1,无关是近似为0.

Spearman Rank

它用来评价一个单调函数能够多完美的描述两个变量之间的关系。变量X和Y的n个样本,对于每个Xi和Yi都被对应到它们的排名rgXi和rgYi,那么Spearman先关系数被定义为:
![](http://www.forkosh.com/mathtex.cgi? r_s = \frac{cov(rg_x, rg_y)}{\sigma_{rg}x\sigma{rg}_y})
其实这个就是Xi与Yi对应的排序值的pearson相关系数。当Xi和Yi对应的排序值无重复的时候可以等价于下面的(注意,只有排序值无重复时才能这样算):
![](http://www.forkosh.com/mathtex.cgi? r_s = 1-\frac{6\sum d_i2}{n(n2-1)})
di = rgXi-rgYi,也就是两个排序值之间的差。(其实,有很多方式让排序值不重复的,排序值不一定是整数)
当Spearman系数为正的时候,表示X的值升Y的值也升;当Spearman系数为负的时候,表示X的值升Y的值降;当Spearman系数为0的时候,表示X的升降和Y的升降没有关系。当Spearman系数为1的时候表示X和Y呈现完美的单调升关系,即Xi-Xj和Yi-Yj永远是相同的正负号。当Spearman系数为-1的时候表示X和Y呈现完美的单调降关系,即Xi-Xj和Yi-Yj永远是相反的正负号。
Spearman被描述为非参数的,这有两层含义:1)只要X和Y呈现任意的单调关系,Spearman相关系数就会达到1或者-1,而与此对应的,Pearson相关系数只有在X和Y呈现线性关系时才会达到完美值。2)对X和Y的联合分布不做假设。
Spearson系数的一个分级:

  • 0.1以下 没有关系
  • 0.10-0.29 微弱关系
  • 0.30-0.49 中等关系
  • 0.50以上 强关联

python实现

pandas里面已经实现上述三个相关系数的计算:
DataFrame.corr(method='pearson', min_periods=1)

参考

(http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/)
(https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient)
(https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient)
(https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)

推荐阅读更多精彩内容