相关系数矩阵
相关矩阵也叫相关系数矩阵,是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。
定义:
设(X1,X2,X3...Xn)是一个n维随机变量,任意Xi与Xj的相关系数ρij(i,j=1,2,...n)存在,则以ρij为元素的n阶矩阵称为该维随机向量的相关矩阵.记作R,即
性质:相关矩阵的对角元素是1。相关矩阵是对称矩阵。
在Python中,可以利用pandas的corr获取相关系数矩阵,代码如下:
corrdf = full.corr()
corrdf
输出(只截取一部分):
默认地,系统返回每个行-列对中的 Pearson 相关系数。通过传递方法的参数,还可以切换到 Kendall's tau 或 Spearman's 秩相关系数(例如,.corr(method="spearman")或.corr(method="kendall"))
还可以对相关系数矩阵进行降序排列,ascending=False表示降序
corrdf['Survived'].sort_values(ascending=False)
输出:
Survived 1.000000
title_Mrs 0.344935
Title_Miss 0.332795
Pclass_1 0.285904
familydf_Small 0.279855
Fare 0.257307
Cabin_B 0.175095
Embarked_C 0.168240
Cabin_D 0.150716
Cabin_E 0.145321
Cabin_C 0.114652
Pclass_2 0.093349
Title_Master 0.085221
Parch 0.081629
Cabin_F 0.057935
Title_Royalty 0.033391
Cabin_A 0.022287
familydfSize 0.016639
Cabin_G 0.016040
Embarked_Q 0.003650
PassengerId -0.005007
Cabin_T -0.026456
Title_Officer -0.031316
SibSp -0.035322
Age -0.070323
familydf_Large -0.125147
Embarked_S -0.149683
familydf_Single -0.203367
Cabin_U -0.316912
Pclass_3 -0.322308
Sex -0.543351
Title_Mr -0.549199
Name: Survived, dtype: float64
在建模时候,需要考察相关性特征,正数为正相关,负数为负相关,通常可以选取绝对值在0.1以上的特征进行建模。若需建立强相关模型,就选取更强的相关性特征。
相关阅读
雅可比矩阵:一个多元函数的一阶偏导数以一定方式排列成的矩阵黑塞矩阵:一个多元函数的二阶偏导数以一定方式排列成的矩阵雅可比矩阵
在多元分析中我们经常要用到相关系数。常用的相关系数有三种:Pearson相关系数,Kendall相关系数和Spearman相关系数。 一、Pearson相
马修斯相关系数(Matthews correlation coefficient)
马修斯相关系数是在使用机器学习作为二进制(2类)的质量的度量的分类,通过生物化学引入布赖恩W.马修斯在1975年 它考虑到真和假阳性和
axis off;% 去掉坐标轴 axistight;% 紧坐标轴 axisequal;% 等比坐标轴 axis([-0.1, 8.1, -1.1, 1.1]);% 坐标轴的显示范围 % gca
Eigen库 矩阵基本操作:转置矩阵,逆矩阵,伴随矩阵,特征值
#include <iostream>#include "Eigen\Dense"using namespace Eigen;using namespace std;int main(){ Matrix3d Mat1; M