相关系数公式
结论:在数据标准化之后,欧式距离、pearson相关系数、Cosine相似度可认为是等价的。(https://www.zhihu.com/question/19734616/answer/349132554)
一、欧几里得距离
作用:m维空间中两个点之间的真是距离,或者向量的自然长度
两个n维向量x与y间的欧式距离:
D=k=1∑n(xi−yi)2
向量运算形式:
D=(a−b)(a−b)T
二、 Pearson correlation coefficient(皮尔逊相关系数)
作用:度量两个变量之间的相关程度,最终结果介于-1到1之间。其结果为两个变量之间的协方差与标准差的商。
在欧式距离中,无法考虑不同变量之间的取值差异,例如:变量a范围01,而变量b取值范围01000,计算欧式距离时变量上的微小差异会产生较大的影响。Pearson可以看作升级版的欧式距离,对不同变量取值范围不同进行了处理步骤,对取值范围没有要求。
协方差
首先引入协方差的表示,两个集合X,Y之间的协方差计算公式为:
COV(X,Y)=n−11(i=1∑n(Xi−X)(Yi−Y))
协方差的意义:如果结果为正值(当Xi大于(小于)X并且Yi大于(小于)Y),则说明X和Y是正相关,如果为负则说明负相关,如果为0则说明两者之间没有关联,相互独立。
Pearson相关系数的公式:
公式一:
COR(X,Y)=σXσYcov(X,Y)=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
公式二:
COR(X,Y)=σXσYcov(X,Y)=E(X2)−E2(X)E(Y2)−E2(Y)E(XY)−E(X)E(Y)
公式中的E为期望,在离散数据中等价于均值,σX为X的标准差。
σX=E(X2)−E2(X)=∑i=1n(Xi−X)2
三、Cosine相似度
用于计算文档数据的相似度。
二维向量中,向量a=(x1,y1)和向量b=(x2,y2)的夹角余弦值计算如下:
cos(Θ)=∣a∣∗∣b∣a⋅b=x12+y12∗x22+y22x1x2+y1y2
如果是n维向量,上述公式仍成立:
cos(Θ)=∣∣X∣∣∗∣∣Y∣∣X⋅Y=∑i=1n(xi)2∑i=1n(yi)2∑i=1n(xi∗yi)=∣∣X∣∣∗∣∣Y∣∣XT⋅Y
余弦值越接近1,表明夹角越接近0,两个向量越相似。
如果,只有正反馈而没有具体值的情况,公式为:
wuv=∣N(u)∣∣N(v)∣∣N(u)∩N(v)∣
四、Tanimoto相似度
是Cosine相似度的扩展,广泛应用于计算文档数据的相似度。
T(x,y)=∣x∣∗∣y∣x⋅y=∑i=1n(xi)2∑i=1n(yi)2−∑i=0nxiyi∑i=1n(xi∗yi)
四、Jaccard系数
两个特征向量A, B,如果其值都是0,1的二值数据,那么就有一个简单的判定相似性的方法,即Jaccard系数
M11表示A和B对应位都是1的属性的数量
M10表示A中为1,B中对应位为0的总数量
M01表示A中为0,B中对应位为1的总数量
M00表示对应位都为0的总数量
J(A,B)=∣A∪B∣∣A∩B∣=M00+M01+M10+M11M11
相关阅读
Pandas.DataFrame相关系数分析(以波士顿房价数据集为例
一、代码 """ CRIM 城镇人均犯罪率 ZN 占地面积超过2.5万平方英尺的住宅用地比例 INDUS 城镇非零售业务地区的比
1 协方差 二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方
1.协方差定义:X,Y为两个随机变量,则它们的协方差值为:这个公式的推导很简单,
关于相关系数的一些理解误区,这篇文章 讲的很好,正如这个网站的名字mathsisfun一样,full of cases, pics and fun :)我想补充我认
相关系数矩阵与热力图heatmap(Python高级可视化库seab
相关系数矩阵 通常,样本是由多维特征的构成的,把每个特征维度都看成一个随机变量,为了考查两两特征间的关系,可以借助随机变量的协方