「检验」R统计计算--差异性检验

检验

假设检验

差异性检验: t检验、秩和检验（如wilcox检验）、Kolmogorov-Smirnov检验

组间差异检验：方差分析、Fisher检验、卡方检验

相关性分析：相关性检验（pearson、spearman和kendall等）、cos相关性检验

基本概念：

1.假设检验是统计推断的一个主要部分

2. 对某一个事情提出疑问，解决疑问的过程往往是先做一个和疑问相关的假设，然后在这个假设下去寻找有关的证据，如果得到的证据和假设相矛盾则否定这个假设

3. 假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件（P<0.01或P<0.05）在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0)，再用适当的统计方法确定假设成立的可能性大小，如可能性小，则认为假设不成立，若可能性大，则还不能认为不假设成立

4. 解决假设检验问题的同时，可能会犯错误。否定H0时犯的错误为第一类错误，接受H0时犯的错误为第二类错误，具体

1） H0为真，统计推断的结果否定H0，犯第一类错误

2） H0为假，统计推断的结果接受H0，犯第二类错误

5. 检验水平a控制了否定H0时犯第一类错误的概率：如果检验是显著的，否定H0后，犯第一类错误的概率不会超过a，如果检验不是显著的，就不能否定H0

6. 参数统计：即总体分布类型已知，用样本指标对总体参数进行推断或作假设检验的统计分析方法。

7. 非参数统计：即不考虑总体分布类型是否已知，不比较总体参数，只比较总体分布的位置是否相同的统计方法。

过程：

1、提出检验假设又称无效假设，符号是H0；备择假设的符号是H1。

H0：样本与总体或样本与样本间的差异是由抽样误差引起的；

H1：样本与总体或样本与样本间存在本质差异；

预先设定的检验水准为0.05；当检验假设为真，但被错误地拒绝的概率，记作α，通常取α=0.05或α=0.01。

2、选定统计方法，由样本观察值按相应的公式计算出统计量的大小，如X2值、t值等。根据资料的类型和特点，可分别选用T检验，秩和检验等。

3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α，结论为按α所取水准不显著，不拒绝H0，即认为差别很可能是由于抽样误差造成的，在统计上不成立；如果P≤α，结论为按所取α水准显著，拒绝H0，接受H1，则认为此差别不大可能仅由抽样误差所致，很可能是实验因素不同造成的，故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。

差异性校验：

一、 T校验

概念：

学生T-检验用于检验统计服从空假设为真的正态分布。用此可判断两组独立的数据集是否存在不同。T-检验适用于基于少量样本（少于30）且标准差未知的判断问题。多组间比较时慎用T检验

统计原理：

1、建立空假设H0：μ1 ＝ μ2，即先假定两个总体平均数之间没有显著差异；备择假设H1： μ1 ≠ μ2

2、给出显著性水平a（例如0.05）

3、计算统计量t值，μ1 μ2 是全量平均值 S方差

4、计算相应的P值

5、确定是否可以拒绝空假设

实现

weights<-c(84.12,85.17,62.18,83.97,76.29,76.89,61.37,70.38,90.98,85.71,89.33,74.56,82.01,75.19,80.97,93.82,78.97,73.58,85.86,76.44) 
weights2<-c(69.35,63.21,72.57,73.23,65.26,60.32,66.96,59.78,69.71,76.88,81.39,64.9,75.53,65.05,77.21,64.9,71.93,75.04,74.29,77.53) 
 boxplot(list(weights,weights2),main='A boxplot of two weight samples')
 abline(h=mean(weights),lwd=2,col='blue') 
 abline(h=mean(weights2),lwd=2,col='red')
pvalue<-t.test(weights,weights2)$p.value

可视化展现：

pvalue=0.00049(<0.05)

说明两组数据的平均值有显著差异

二、秩和检验Wilcoxon

概念：

秩和检验是一种非参数校验方法（用样本秩来代替样本值的检验法），它使用的空假设为，不假设正态分布的情况下，两个不同组的数据来自于同一个全量。

统计原理：

T检验，它假设两组样本之间的差异是服从正态分布（也适用于两组样本服从正态分布的情况）。但是，当不能确定正态分布的时候，可以采用wilcoxon秩和检验来做假设检验

1）建立假设；

H0：比较两组的总体分布相同；

H1：比较两组的总体分布位置不同；检验水准为0.05。

（2）两组混合编秩；

（3）求样本数最小组的秩和作为检验统计量T；

（4）以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表；

（5）根据P值作出统计结论。

当相同秩次较多时，应用校正公式计算u值

现设1，2两总体分别抽取容量为n1,n2的样本，且设两样本独立。这里总假定 n1<>n2。

我们将这n1 + n2个观察值放在一起，按自小到大的次序排列，求出每个观察值的秩，然后将属于第1个总体的样本观察值的秩相加，其和记为R1，称为第1样本的秩和，其余观察值的秩的总和记作R2，称为第2样本的秩和。

显然，R1和R2是离散型随机变量，且有R1+R2=( (n1+n2)(n1+n2+1) )/2.

实现：

likes<-c(17,40,57,30,51,35,59,64,37,49,39,41,17,53,21,28,46,23,14,13,11,17,15,21,9,17,10,11,13,16,18,17,2,11,12,5,8,4,12,7,11,8,4,8,7,3,9,9,9,12,17,6,10) 
 likes2<-c(28,152,197,25,62,39,32,202,85,74,125,32,67,29,37,297,101,45,24,63,17,92,46,60,317,85,46,61,56,59,91,54,133,87,200,28,97,28,30) 
boxplot(list(likes,likes2))
Pvalue<-wilcox.test(likes,likes2)$p.value

可视化展示

pvalue=2.750569e-11 (<0.05)

说明两组数据并不来自于同一个全量

三、Kolmogorov-Smirnov检验

概念：

KS检验是一种非参数的、面向连续概率分布等价性的统计检验方法。

双样本Kolmogorov-Smirnov检验可以比较两个数据集的累积分布

统计原理：

H0：样本服从指定的分布

H1：样本不服从指定的分布

ECDF:经验累积分布函数

KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值（statistic D）作为描述两组数据之间的差异。

实现：

set.seed(123) 
x<-runif(n=20,min=0,max=20) 
 y<-runif(n=20,min=0,max=20) 
plot(ecdf(x),do.points=F,verticals = T,xlim=c(0,20)) lines(ecdf(y),lty=3,do.points=F,verticals=T) 
pvalue<-ks.test(x,y)$p.value

可视化展现：

pvalue=0.8319696 (>0.05)

说明两组数据可能来自同一个分布

	T检验	秩和检验	KS检验
条件	1）已知一个总体均数 2）可得到样本均数及样本标准差 3）样本来自正态或近似正态分布	样本独立分布不清两个样本容量均小于10	适用于连续概率分布
空假设	两个总体平均值相同	不假设正态分布的情况下，两个不同组的数据来自于同一个全量	两组数据来自于同一个分布
统计	平均数	秩和	两条累计分布曲线之间的最大垂直差

T检验

秩和检验

KS检验

条件

1）已知一个总体均数

2）可得到样本均数及样本标准差

3）样本来自正态或近似正态分布

样本独立

分布不清

两个样本容量均小于10

适用于连续概率分布

空假设

两个总体平均值相同

不假设正态分布的情况下，两个不同组的数据来自于同一个全量

两组数据来自于同一个分布

统计

平均数

秩和

两条累计分布曲线之间的最大垂直差

R统计计算--差异性检验

检验

假设检验

基本概念：

过程：

差异性校验：

一、 T校验

概念：

统计原理：

实现

可视化展现：

二、秩和检验Wilcoxon

概念：

统计原理：

实现：

可视化展示

三、Kolmogorov-Smirnov检验

概念：

统计原理：

实现：

可视化展现：

相关阅读

栏目导航

推荐阅读

热门阅读