pascal
数据挖掘之数据初步探索
1. 汇总统计
众数:具有最高频率的值,针对离散型数据
百分位数:计算方法(3,4.3,6.2,6.5,7.6,7.8,8.1,9.6,10,11,12.3,15.9)
求75%中位数:
均值和中位数
极差(最大值和最小值之间的差值),方差
由于方差用均值计算,它对离群值比较敏感
绝对平均偏差:
中位数绝对偏差:
四分位数极差:
2. 多元汇总统计
数据对象(具有多元属性)的均值
对于多元数据,每个属性的分布可以独立于其他属性;对于连续变量的数据,数据的散布可以用协方差矩阵S表示,
其中x(k,i)和x(k,j)分别表示第k个对象的第i和第j个属性的值。同时,covariance(xi,xi)=variance(xi),即协方差矩阵的对角线上是属性的方差。
协方差的值接近于0表明两个变量不具有线性关系。
相关矩阵R用来表示属性之间的相关性:
R的对角线上的元素是1,而其他元素介于-1和1之间。
相关阅读
第一章 简单程序 2第一节Pascal程序结构和基本语句 2第二节顺序结构程序与基本数据类型 6第二章 分支程序 10第一节条件语句与