概率统计
前言:
对于统计学,只是本人的浅谈,还请各位指教.
概率论研究什么呢?
随机现象:不确定性与统计规律性
概率论—研究和揭示随机现象的统计规律的科学
随机事件机器概率:
特点:
1.可以在相同的条件下重复进行;
2.一次实验之前无法确定具体是哪种结果出现,但能确定所有的可能的结果.
概率论:
主要研究随机事件。人们对某些事件发生的可能性高低一般都有直
观的认识,所以未经特殊训练就会使用“可能”、“不可能”之类的
词汇。但本书会介绍如何量化这种可能性。
统计学:
统计学是在根据样本推测总情况下.大部分统计分析都基于概率,所以这两方面的内容通常兼而有之.
计算:
量化分析的最佳工具.计算是处理统计量的常用工具.此外计算实验还有主语理解概率论和统计学的概念.
统计方法步骤:
收集数据–>描述性统计—> 探索性数据分析—>假设检验—>估计–>最缺结论
事件之间的关系:
a.包含关系:事件 A发生必有事件B发生
b.和事件:事件A与B至少有一个发生
c.积事件:事件A与B同时发生
d.差事件:A-B称为A与B的差时间,表示事件A发生而事件B不发生
e.互斥事件:即事件与事件不可能同时发生
f:互逆事件:两事件的对立事件
古典概率:
若某实验E满足:
1.有限性:样本空间S={e1, e 2 , … , e n };
2.等可能性:(公认)
P(e1)=P(e2)=…=P(en).
则称E为古典概型也叫等可能概型。
描述性的统计量:
一. 均值和平均值:
如果一个包含n个值的样本xi,那么他们的均值等于这些值的总和除以值的数量:即:
均值(mean)和平均值(average)在很多情况下可以不加区分地是用,但还是强调一下两者的区别:
1.样本的”均值”是根据上述公式计算出来的一个汇总统计量;
2.”平均值”是若干种可以用于描述样本的典型值或集中趋势(center tendency)的汇总统计量之一
方差:
均值是为了描述集中趋势,而方差则是描述分散情况(方差描述随机变量对于数学期望的偏离程度).一组值的方差等于:
也可以写成:
其中x i -μ叫做离均差.因此方差为改偏差的方均值,这也是用 σ 2 表示的原因.方差的平法跟 σ 叫做标准差
分布:
汇总统计量简单明了,但风险也搭,因为他们很有可能会掩盖数据真相.另一种方法就是看数据的分布,他描述了各个值出现的频繁程度.
表示分布最常用的方法是直方图,这种图用于各个值出现的频数或概率.
在这里,频数指的是数据集中一个值出现的次数,跟声音的音高和无
线电信号的调频没有关系。概率就是频数除以样本数量 n。
在Python中,计算频数最简单的方法就是字典.给定一个序列t:
hist = { }
for x in t:
hist[x] = hist.get(x, 0) + 1
得到的结果是一个将至映射到频数的字典.将除以n即可把频数转换成概率,这称为归一化:
n = float(len(t))
pmf = { }
for x, freq in hist.items():
pmf[x] = freq / n
归一化之后的直方图称为PMF ,将 Python 中的字典称为函数可能会让部分读者感到困惑。在数学中,
函数就是一组值到另一组值的映射。在 Python 中,我们通常用函数对
象表示数学中的函数,但这个例子中用的是字典(字典也被称为“映
射”,所以称其为“函数”也是可以理解的)
一些概念
众数:
分布汇总出现的次数最多的值叫做众数
形状
以众数为中心,整个分布式不对称的;
异常值
远离众数的值叫做异常值
条件概率:
就是依赖某个条件下的概率.
归一化
将频数除以样本数量得到概率的过程
概率质量的函数(PMF)
以函数的形式表示分布,改函数将值映射到概率.
相对风险
两个概率的比值,通常用于衡量两个分布的差异
分散
样本或总体的特征,直观来说就是数据的变动有多大
修剪
删除数据中的异常值
方差
用于量化分散程度的汇总统计量
相关阅读
数据分析能做什么呢?它能更好的解决问题,但同样的它也有很多的坑,那么我们要如何避开这些坑呢?前言说实话,数据分析是人人都会的,只是没
百度竞价,就是百度上投广告,销售产品的方式。百度竞价因为涉及的因素很多,又是烧广告费,所以对新人来说,门槛比较高,赚钱也比较难。所以
目录 第一节 离散.连续.多维随机变量及其分布 1.1、几个基本概念点 1..2、随机变量及其分布 第二节、从数学期望、方差、协方
概率是度量一件事发生的可能性,它是介于0到1之间的数值。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正
把同样公平的机会放在放在很多人面前,不同的人生算法,会得到迥然不同的结果。罗胖在刚刚结束的“时间的朋友”跨年演讲中讲到一个概