正态分布
来源:http://study.163.com/course/courseMain.htm?courseId=1005232026
索引——
- 基本概念
- 连续变量的统计描述
- 分类变量的统计描述
- 正态分布
- 二项分布
- 参数估计与可信区间
- 假设检验
四、正态分布
1、从样本频数分布到概率分布
直方图/频率图的性质:
(1)直条的面积实质上是频率(或者百分比),即:
面积 = 高度(频率/组距) * 宽度(组距) = 频率
(2)所有直条面积相加等于1
样本量越来越大时,频率(面积)去向概率;
组距越来越小时,直方图的顶替所成点并且各个直方条的顶链接成一条曲线,该曲线就是概率密度分布曲线;
概率密度的概念和固体的密度基本类似。
(3)概率密度曲线下的面积就是相应的累计概率
(4)概率密度曲线就是大量重复随机变异的规律
2、正态分布和标准正态分布
2.1 正态分布,记为:X~N(μ,σ^2)
正态分布的俩个重要特征:均数μ,标准差σ
μ是分布曲线的峰位置(集中趋势),又被称为位置参数;
σ(读作:西格玛)越大离散程度越大,σ越小离散程度越小(离散趋势),又被称为形状参数;
正态分布是左右对称的,具有对称性。
2.2 标准正态分布
2.2.1 统计学家计算出均数为0,标准差为1的正态分布N(0,1)曲线下面几分分布规律:
95% |
99% |
|
双侧 |
1.96(常用) |
2,58 |
单侧 |
1.64 |
2.33 |
标准正态分布N(0,1)与其他正态分布N(μ,σ^2 )的关系:
若X~N(μ,σ^2) ,则
2.2.2 标准正态分布的曲线下面积分分布规律
只要将相应的指标转换为服从标准正态分布,就可以根据该面积分布规律计算累计概率
3、正态分布的应用
3.1 估计个体参考值;
3.2 整个经典统计学中更复杂方法的基石;
3.3 工业生产中的质量控制,如下图
4、做正态分布分析步骤
4.1 确定数据是否服从正态分布:
- 若服从,直接采用正态分布公式计算参考值范围
- 若不服从,考虑是否可变换为正态分布(对数转换、平方根转换),变换后采用正态分布公式计算参考值范围
- 无法变化,则使用百分位数法计算参考值范围
PS: Q:不直接用百分位数法进行计算?
A:百分位数法样本容量太大不容易满足条件
4.2 运用excel 分析是否是正态分布
最简单、直观的方法是做出直方图/频数图:
如下图,则是偏态分布(大数据在小的一端)则不符合正态分布,则做平方变换。
(平方根转换后)结果:转换后并没达到理想的正态分布状态;同理,这时可以考虑用对数转换再查看结果......
相关阅读
正态分布的基本描述: 在概率论里面,正态分布(或者叫高斯分布)是非常常见的连续概率分布。由于存在中心极限定理,这使得正态分布十分
为了便于描述和应用,常将一般正态分布转化成标准正态分布。通过查标准正态分布表,就可以直接计算出原正态分布的概率值。问题:根据用
验证事件的元素的对数正态分布性,一般可借助对数正态分布概率纸进行,若在概率纸上绘制的概率密度曲线为线性,那么该事件即呈对数正态