大数定理
切比雪夫大数定律:用统计方法来估计期望的理论依据。E(X)≈1n∑nk=1xk
贝努利大数定律:事件 A 发生的频率 nAn 依概率收敛于事件 A 的概率 p。明确了频率的稳定性,当 n 很大时,事件发生的频率与概率有较大偏差的可能性很小。p≈nAn
2. 中心极限定理
中心极限定理:研究何种条件下独立随机变量之和的极限分布为正态分布的一系列命题的统称。
是数理统计学和误差分析的理论基础,指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
2.1 独立同分布的中心极限定理
设相互独立的随机变量 X1,X2,...,Xn,... 具有相同的概率分布,且有有限的数学期望和方差: E(Xk)=μ,D(Xk)=μ2≠0(k=1,2,...,n,...),则随机变量
Yn=∑k=1nXk−nμn√σ
的分布函数 Fn(x) 对于任意实数 x ,都有
limn→∞Fn(x)=∫x−∞12π−−√e−t22dt
由以上定理可知:
当 n 很大时, Yn 近似地服从标准正态分布 N(0,1) 。
令 X¯¯¯=1n∑nk=1Xk,则当 n 很大时, X¯¯¯ 近似服从正态分布 N(μ,σ2n)
由此可见:在独立同分布的情况下,无论 X1,X2,...,Xn 的分布函数为何,它们的平均数 X¯¯¯ 当 n 充分大的时候总是近似地服从正态分布。
德莫佛-拉普拉斯(De Moivre-Laplace)定理:二项分布的极限分布是正态分布。
一般而言,当 n 很大时,二项分布的概率计算是非常麻烦的。若 n 较大,而 p 较小且 np 适中,则还可以利用泊松公式来近似计算二项概率;但若 np 也较大时,用上述公式近似计算出的结果,其精度就稍差。此时可以利用下面的近似公式来计算:
∑k=n1n2(nk)pk(1−p)n−k=P{n1≤x≤n2}≈Φ(n2−npnp(1−p)−−−−−−−−√)−Φ(n1−npnp(1−p)−−−−−−−−√)
2.2 独立不同分布的中心极限定理
若随机变量 X1,X2,...,Xn,... 相互独立,有有限的数学期望和方差,且满足林德贝格(Lindeberg)条件(每个随机变量都均匀小),则当 n 充分大时,这些变量之和的概率分布近似于正态分布。
相关阅读
大数据部分用到的端口号汇总(默认端口号):
8020:前端页面的端口吗?
18080:历史服务器的端口
8088:yarn的端口
8080:spark集群的master端口
7077:spark提交的时候的端口号spark-app
大数据时代,我们应该具有怎样的思维方式?
《飘》、《汤姆叔叔的小屋》之类的小说和故事在全社会激起的是强烈的“情感”共鸣,和故事相比,数据没有情节,它仅代表客观事实,数据激
最新数据显示:2025年中国将拥有世界最大数据圈
国际数据公司(IDC)2月21日发布的报告预测,中国数据圈在2025年增至48.6ZB字节,占全球27.8%,成为最大数据圈。
IDC昨天发布了《数字化世界
可以用半年时间研究的新品营销策略,如何与大数据结合?
地转天旋,万事开头难。斗霜傲雪二十年,堂堂剑气尚寒。戎马倥偬一生,多少失败成功?试看大千世界,依旧海阔天空。一个国家经济软实力的强
大数据如何解决行业挑战?大数据在10个垂直行业中的应用
数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点, 随着大数据继续渗透到我们的日常