协方差
1 协方差
二维随机变量(X,Y),X与Y之间的协方差定义为:
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
其中:E(X)为分量X的期望,E(Y)为分量Y的期望
协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数,协方差代表了两个变量之间的是否同时偏离均值。
从协方差的定义可以看出,它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。
- 当协方差Cov(X,Y)>0时,称X与Y正相关
- 当协方差Cov(X,Y)<0时,称X与Y负相关
- 当协方差Cov(X,Y)=0时,称X与Y不相关
如果正相关,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。
在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:
当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。
当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。
当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。
当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。
当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 。
当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0 。
所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差
cov(X, Y) = E(X-EX)(Y-EY)。
当 cov(X, Y)>0时,表明 X与Y 正相关;
当 cov(X, Y)<0时,表明X与Y负相关;
当 cov(X, Y)=0时,表明X与Y不相关。
这就是协方差的意义。
实例1
二维随机变量(身高X,体重Y)(非真实数据)
身高X(cm) | 体重Y(500g) | X-E(X) | Y-E(Y) | [X-E(X)][Y-E(Y)] |
---|---|---|---|---|
1 | 152 | 92 | -19.4 | |
2 185 | 162 | 13.6 | 30.3 | 412.08 |
3 169 | 125 | -2.4 | -6.7 | 16.08 |
4 172 | 118 | 0.6 | -13.7 | -8.22 |
5 174 | 122 | 2.6 | -9.7 | -25.22 |
6 168 | 135 | -3.4 | 3.3 | -11.22 |
7 180 | 168 | 8.6 | 36.3 | 312.18 |
E(X) =171.4 | E(Y) =131.7 | E{[X-E(X)][Y-E(Y)]}=209.4 |
根据直觉我们也会想到,身高和体重是有正相关性的,身高较高的体重一般会比较大,同样体重大的身高一般也比较高。计算出来的结果也非常符合我们的直觉。
实例2
二维随机变量(玩游戏的时间X,学习成绩Y)(非真实数据)
游戏时间X(h/天) | 学习成绩Y | X-E(X) | Y-E(Y) | [X-E(X)][Y-E(Y)] |
---|---|---|---|---|
1 | 0 | 95 | -1.36 | 20.7 |
2 | 1 | 65 | -0.36 | -9.3 |
3 | 3 | 70 | 1.64 | -4.3 |
4 | 2 | 55 | 0.64 | -19.3 |
5 | 2.5 | 65 | 1.14 | -9.3 |
6 | 0.5 | 80 | -0.86 | 5.7 |
7 | 0.5 | 90 | -0.86 | 15.7 |
E(X) =1.36 | E(Y) =74.3 | E{[X-E(X)][Y-E(Y)]}= -10.5 |
同样根据直觉我们也会觉得,小朋友玩游戏的时间越长,学习成绩越差的可能性就越大,计算结果也很好的符合我们的直觉。
从上面两幅散点图上大约可以看出体重随身高的变化趋势,以及学习成绩随玩游戏时间长短的变化趋势。因此,可以说协方差是两个随机变量具有相同变化趋势的度量。
但是,协方差仅能进行定性
的分析,并不能进行定量
的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。
2 相关系数
相关系数的定义
其中:Var(X)为X的方差,Var(Y)为Y的方差。
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足Y=aX+b,a>0
考虑Corr(X,X),两个随机变量相同,肯定满足线性关系,此时,Cov(X,X)=Var(X),容易得到Corr(X,Y)=1
Corr(X,Y)=-1的时候,说明两个随机变量完全负相关,即满足Y=-aX+b,a>0
0<| Corr(X,Y)|<1的时候,说明两个随机变量具有一定程度的线性关系。
还是以前面的两个例子为例,
身高体重:Corr(X,Y)= 209.4/(10.2*24.4)=0.84
游戏时间与学习成绩:Corr(X,Y)= -10.5/(1.1*13.4)= -0.71
有了相关系数,我们可以说,身高与体重之间的线性相关性比游戏时间与学习成绩之间的线性相关性更大。
补充说明:
Corr(X,Y)为0,表示X与Y不相关,这里的不相关指的是X与Y没有线性关系,但不是没有关系。因此将“相关”理解为“线性相关”也许更恰当一些。
参考文章
https://blog.csdn.net/northeastsqure/article/details/50163031
https://www.cnblogs.com/sanshanyin/p/5397091.html
https://www.zhihu.com/question/20852004
相关阅读
1.协方差定义:X,Y为两个随机变量,则它们的协方差值为:这个公式的推导很简单,
关于相关系数的一些理解误区,这篇文章 讲的很好,正如这个网站的名字mathsisfun一样,full of cases, pics and fun :)我想补充我认
相关系数矩阵与热力图heatmap(Python高级可视化库seab
相关系数矩阵 通常,样本是由多维特征的构成的,把每个特征维度都看成一个随机变量,为了考查两两特征间的关系,可以借助随机变量的协方
1 皮尔逊相关系数(Pearson Correlation Coefficient) 皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。 两
学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出