必威体育Betway必威体育官网
当前位置:首页 > IT技术

R统计计算--差异性检验

时间:2019-08-19 23:15:32来源:IT技术作者:seo实验室小编阅读:85次「手机版」
 

检验

假设检验

差异性检验: t检验、秩和检验(如wilcox检验)、Kolmogorov-Smirnov检验

组间差异检验:方差分析、Fisher检验、卡方检验

相关性分析:相关性检验(pearson、spearman和kendall等)、cos相关性检验

基本概念:

1.假设检验是统计推断的一个主要部分

2. 对某一个事情提出疑问,解决疑问的过程往往是先做一个和疑问相关的假设,然后在这个假设下去寻找有关的证据,如果得到的证据和假设相矛盾则否定这个假设

3. 假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立

4. 解决假设检验问题的同时,可能会犯错误。否定H0时犯的错误为第一类错误,接受H0时犯的错误为第二类错误,具体

1) H0为真,统计推断的结果否定H0,犯第一类错误

2) H0为假,统计推断的结果接受H0,犯第二类错误

5. 检验水平a控制了否定H0时犯第一类错误的概率:如果检验是显著的,否定H0后,犯第一类错误的概率不会超过a,如果检验不是显著的,就不能否定H0

6. 参数统计:即总体分布类型已知,用样本指标对总体参数进行推断或作假设检验的统计分析方法

7. 非参数统计:即不考虑总体分布类型是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计方法。

过程:

1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。

  H0:样本与总体或样本与样本间的差异是由抽样误差引起的;

  H1:样本与总体或样本与样本间存在本质差异;

预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。

2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用T检验,秩和检验等。

3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。

差异性校验:

一、 T校验

概念:

学生T-检验用于检验统计服从空假设为真的正态分布。用此可判断两组独立的数据集是否存在不同。T-检验适用于基于少量样本(少于30)且标准差未知的判断问题。多组间比较时慎用T检验

统计原理:

1、建立空假设H0:μ1 = μ2,即先假定两个总体平均数之间没有显著差异; 备择假设H1: μ1 ≠ μ2

2、 给出显著性水平a(例如0.05)

3、计算统计量t值,μ1 μ2    是全量平均值  S方差

4、计算相应的P值

5、确定是否可以拒绝空假设

实现

weights<-c(84.12,85.17,62.18,83.97,76.29,76.89,61.37,70.38,90.98,85.71,89.33,74.56,82.01,75.19,80.97,93.82,78.97,73.58,85.86,76.44) 
weights2<-c(69.35,63.21,72.57,73.23,65.26,60.32,66.96,59.78,69.71,76.88,81.39,64.9,75.53,65.05,77.21,64.9,71.93,75.04,74.29,77.53) 
 boxplot(list(weights,weights2),main='A boxplot of two weight samples')
 abline(h=mean(weights),lwd=2,col='blue') 
 abline(h=mean(weights2),lwd=2,col='red')
pvalue<-t.test(weights,weights2)$p.value

可视化展现:

pvalue=0.00049(<0.05)

说明两组数据的平均值有显著差异

二、秩和检验Wilcoxon

概念:

秩和检验是一种非参数校验方法用样本秩来代替样本值的检验法),它使用的空假设为,不假设正态分布的情况下,两个不同组的数据来自于同一个全量。

统计原理:

T检验,它假设两组样本之间的差异是服从正态分布(也适用于两组样本服从正态分布的情况)。但是,当不能确定正态分布的时候,可以采用wilcoxon秩和检验来做假设检验

1)建立假设;

   H0:比较两组的总体分布相同;

   H1:比较两组的总体分布位置不同;检验水准为0.05。

(2)两组混合编秩;

(3)求样本数最小组的秩和作为检验统计量T;

(4)以样本含量较小组的个体数n1、两组样本含量之差n2-n1及T值查检验界值表;

(5)根据P值作出统计结论。

当相同秩次较多时,应用校正公式计算u值

现设1,2两总体分别抽取容量为n1,n2的样本,且设两样本独立。这里总假定 n1<>n2。

我们将这n1 + n2个观察值放在一起,按自小到大的次序排列,求出每个观察值的秩,然后将属于第1个总体的样本观察值的秩相加,其和记为R1,称为第1样本的秩和,其余观察值的秩的总和记作R2,称为第2样本的秩和。

显然,R1和R2是离散型随机变量,且有R1+R2=( (n1+n2)(n1+n2+1) )/2.

实现:

likes<-c(17,40,57,30,51,35,59,64,37,49,39,41,17,53,21,28,46,23,14,13,11,17,15,21,9,17,10,11,13,16,18,17,2,11,12,5,8,4,12,7,11,8,4,8,7,3,9,9,9,12,17,6,10) 
 likes2<-c(28,152,197,25,62,39,32,202,85,74,125,32,67,29,37,297,101,45,24,63,17,92,46,60,317,85,46,61,56,59,91,54,133,87,200,28,97,28,30) 
boxplot(list(likes,likes2))
Pvalue<-wilcox.test(likes,likes2)$p.value

可视化展示

pvalue=2.750569e-11 (<0.05)

说明两组数据并不来自于同一个全量

三、Kolmogorov-Smirnov检验

概念:

KS检验是一种非参数的、面向连续概率分布等价性的统计检验方法。

双样本Kolmogorov-Smirnov检验可以比较两个数据集的累积分布

统计原理:

H0:样本服从指定的分布

H1:样本不服从指定的分布

ECDF:经验累积分布函数

KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。

实现:

set.seed(123) 
x<-runif(n=20,min=0,max=20) 
 y<-runif(n=20,min=0,max=20) 
plot(ecdf(x),do.points=F,verticals = T,xlim=c(0,20)) lines(ecdf(y),lty=3,do.points=F,verticals=T) 
pvalue<-ks.test(x,y)$p.value

可视化展现:

pvalue=0.8319696 (>0.05)

说明两组数据可能来自同一个分布

  T检验 秩和检验 KS检验
条件

1) 已知一个总体均数

2)可得到样本均数及样本标准差

3)样本来自正态或近似正态分布

样本独立

分布不清

两个样本容量均小于10

适用于连续概率分布

空假设

两个总体平均值相同

不假设正态分布的情况下,两个不同组的数据来自于同一个全量

两组数据来自于同一个分布

统计 平均数 秩和

两条累计分布曲线之间的最大垂直差

相关阅读

如何七周成为数据分析师16:数据分析必须懂的假设检验

在前一篇讲完概率分布后,我们再接再厉拿下假设检验,也就是大名鼎鼎的AB Testing。俗话说得好,再优秀的产品经理也跑不过一半AB测试。

什么是T检验

很多的检验和我们的直觉是一致的,前阵子在一个群里,有管理学院的人问说想看两个样本是不是来自于同一个分布,我叫他画两个CDF,一看就

产品测试过程中,T检验的实践运用(一)

大学的统计学知识,你是否还记得?本文作者将用最精炼的语言和简单的案例,让你能够快速将T检验运用到实战当中。因此不用纠结过多的统

循环冗余检验CRC原理

为什么引入CRC 现实的通信链路都不会是理想的。这就是说,比特在传输的过程中可能会产生差错:1可能会变成0,0可能会变成1,这就叫做比

如何检验管控百度竞价推广成本

当竞价推广遇到有流量没转化、效果不好、成本太高的等问题时,从老板、销售、主管到咨询的第一反应都是竞价员在哪?干什么吃的?竞价

分享到:

栏目导航

推荐阅读

热门阅读