必威体育Betway必威体育官网
当前位置:首页 > IT技术

关于相关系数的一些理解误区

时间:2019-07-24 10:42:14来源:IT技术作者:seo实验室小编阅读:79次「手机版」
 

相关系数的意义

关于相关系数的一些理解误区,这篇文章 讲的很好,正如这个网站的名字mathsisfun一样,full of cases, pics and fun :)

我想补充我认为非常重要的几点:

一般我们讲的相关系数,其实叫 皮尔逊相关系数,学名 皮尔逊积差系数(Pearson's product moment coefficient)

In statistics, the Pearson product-moment correlation coefficient is a measure of the linear correlation (dependence) between two variables X and Y, giving a value between +1 and −1 inclusive, where 1 is total positive correlation, 0 is no correlation, and −1 is total negative correlation. It is widely used in the sciences as a measure of the degree of linear dependence between two variables. 

--from wiki

计算公式如下:

注意红色标注的"linear", 我想强调的是:

这里的相关系数只是用来衡量两个变量线性相关程度的指标

也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何

反之不成立:

  • 比如你先算出相关系数=0.9,就下结论说两个变量线性相关是不对的,甚至说两个变量相关(有某种更复杂的关系)也是不对的(见:case 1)
  • 另外,如果算出来相关系数=0,下结论说两个变量不是线性相关是ok的,但说他们完全不相关就得小心了,很有可能不对(见:case 2)。

case 1:

Four sets of data with the same correlation of 0.816

The image on the right shows scatterplots of Anscombe's quartet, a set of four different pairs of variables created by Francis Anscombe. 

--from wiki

  1. 如图(右上)所示,非线性相关也会导致线性相关系数很大
  2. 好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下)所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
  3. 这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释)

case 2:

上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗? 

所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

下面是wiki对于误解的进一步解释

“The Pearson correlation coefficient indicates the strength of a linear relationship between two variables, but its value generally does not completely characterize their relationship.”

“皮尔逊相关系数 其实是衡量 两个变量线性相关程度大小的指标,但它的值的大小并不能完全地反映两个变量的真实关系。”

如果我再罗嗦一遍你也许会就更明白了

如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;

但在你不知道这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,你一定要画出图来看才行,这就是为什么我们说眼见为实数据可视化的重要性。

大概就酱紫,你现在是不是觉得皮尔逊相关系数特没用?!(皮尔逊相关系数说:起码比某些人有用得多,哈哈)

另外,需要留意的是:

1. 只有当两个变量的标准差都不为零,相关系数才有意义。

2. 在实际应用中,比如协同过滤中,如果一个电影只有一个评分,相关系数也没有意义。

最后,还需要特别留意的是:

即使两个变量相关,也不代表两者有因果关系,应该牢记【相关非因果】,因为:

1. 一种情况有可能是 A导致了B和C, 你计算发现B和C相关,认为 B导致了C, 其实不是;

2. 还有一种情况是 B和C本身毫无关系,就像文中举的“学课外课和生病的关系”的例子,但是统计发现相关系数就是很大,这有多种可能,有可能是一个你还不知道的原因A导致B和C(如果真发现A的话,将是个很好的知识发现), 也有可能本身就是统计出错了,所以具体问题要具体分析。

further reading:

1. 开篇那篇很有趣的文章  http://www.mathsisfun.com/data/correlation.html 

2. 关于 correlation coefficient 与 linear regression的关系 http://mathworld.wolfram.com/CorrelationCoefficient.html

3. 关于相关性大小的解释 http://mathbits.com/MathBits/TISection/Statistics2/correlation.htm

相关阅读

相关系数矩阵与热力图heatmap(Python高级可视化库seab

相关系数矩阵 通常,样本是由多维特征的构成的,把每个特征维度都看成一个随机变量,为了考查两两特征间的关系,可以借助随机变量的协方

【深度学习基础-14】回归中的相关系数r和决定系数R^2

1 皮尔逊相关系数(Pearson Correlation Coefficient) 皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。 两

协方差矩阵和矩阵相关系数的理解

在做机器学习的过程中经常会有矩阵的相关运算,这里就比较典型的协方差和矩阵的相关系数做个自我的理解记录。 1.协方差 如果两个

育种值 表型值 回归系数 相关系数 遗传力之间的关系

假定表型值由均值+育种值+残差 yi=μ+ai+ϵi y_i = \mu + a_i + \epsilon_iyi​=μ+ai​+ϵi​表型值 VS 育种值 他们之间的相

分享到:

栏目导航

推荐阅读

热门阅读