coefficient
马修斯相关系数是在使用机器学习作为二进制(2类)的质量的度量的分类,通过生物化学引入布赖恩W.
马修斯在1975年
- 它考虑到真和假阳性和假阴性,并且通常是被视为一种平衡的措施,即使这些班级的规模大小不同也可以使用。
- MC实质上是观察到的和预测的二元分类之间的相关系数; 它返回介于-1和+1之间的值。系数+1表示完美预测,0表示不比随机预测好,-1表示预测和观察之间的完全不一致。统计数据也称为phi系数。MCC与2×2 列联表的卡方统计量相关
- 其中n是观察总数。虽然没有完美的方法用一个数字来描述真假阳性和阴性的混淆矩阵,但马修斯相关系数通常被认为是最好的这种测量之一。
- 当俩个类别具有非常不同的大小时,其他度量(例如正确预测的比例(也称为准确性))无用。例如,将每个对象分配给较大的集合可以实现高比例的正确预测,但通常不是有用的分类。可以使用以下公式直接从混淆矩阵计算MCC :
- 在这个公式中,TP是数量真阳性,TN的数量真阴性,FP的数量误报和FN的数量假阴性。如果分母中的四个和中的任何一个为零,则分母可以任意设置为1; 这导致Matthews相关系数为零,这可以显示为正确的限制值。
- 马修斯给出的原始公式是:
-
这等于上面给出的公式。
- 作为相关系数,
马修斯相关系数是问题及其对偶的回归系数的几何平均数。
Matthews相关系数的分量回归系数是Markedness(Δp)和Youden的J统计量(Informedness或Δp’)。
标记和知情对应于不同的信息流方向,并推广了Youden的J统计量, {\ displaystyle \ delta}p统计和(作为它们的几何平均值)马修斯相关系数超过两个类。
一些科学家声称,马修斯相关系数是在混淆矩阵环境中建立二元分类器预测质量的最具信息性的单一分数。
来自维基百科
相关阅读
统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数
结论:在数据标准化之后,欧式距离、Pearson相关系数、Cosine相似度可认为是等价的。(https://www.zhihu.com/question/19734616/answe
Pandas.DataFrame相关系数分析(以波士顿房价数据集为例
一、代码 """ CRIM 城镇人均犯罪率 ZN 占地面积超过2.5万平方英尺的住宅用地比例 INDUS 城镇非零售业务地区的比
1 协方差 二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方
1.协方差定义:X,Y为两个随机变量,则它们的协方差值为:这个公式的推导很简单,