必威体育Betway必威体育官网
当前位置:首页 > IT技术

统计学与概率的浅谈

时间:2019-07-31 19:41:06来源:IT技术作者:seo实验室小编阅读:85次「手机版」
 

概率统计

前言:

对于统计学,只是本人的浅谈,还请各位指教.

概率论研究什么呢?

随机现象:不确定性与统计规律性

概率论—研究和揭示随机现象的统计规律的科学

随机事件机器概率:

特点:

1.可以在相同的条件下重复进行;

2.一次实验之前无法确定具体是哪种结果出现,但能确定所有的可能的结果.

概率论:

主要研究随机事件。人们对某些事件发生的可能性高低一般都有直

观的认识,所以未经特殊训练就会使用“可能”、“不可能”之类的

词汇。但本书会介绍如何量化这种可能性。

统计学:

统计学是在根据样本推测总情况下.大部分统计分析都基于概率,所以这两方面的内容通常兼而有之.

计算:

量化分析的最佳工具.计算是处理统计量的常用工具.此外计算实验还有主语理解概率论和统计学的概念.

统计方法步骤:

收集数据–>描述性统计—> 探索性数据分析—>假设检验—>估计–>最缺结论

事件之间的关系:

a.包含关系:事件 A发生必有事件B发生

b.和事件:事件A与B至少有一个发生

c.积事件:事件A与B同时发生

d.差事件:A-B称为A与B的差时间,表示事件A发生而事件B不发生

e.互斥事件:即事件与事件不可能同时发生

f:互逆事件:两事件的对立事件

古典概率:

若某实验E满足:

1.有限性:样本空间S={e1, e 2 , … , e n };

2.等可能性:(公认)

P(e1)=P(e2)=…=P(en).

则称E为古典概型也叫等可能概型。

描述性的统计量:

一. 均值和平均值:

如果一个包含n个值的样本xi,那么他们的均值等于这些值的总和除以值的数量:即:

这里写图片描述

均值(mean)和平均值(average)在很多情况下可以不加区分地是用,但还是强调一下两者的区别:

1.样本的”均值”是根据上述公式计算出来的一个汇总统计量;

2.”平均值”是若干种可以用于描述样本的典型值或集中趋势(center tendency)的汇总统计量之一

方差:

均值是为了描述集中趋势,而方差则是描述分散情况(方差描述随机变量对于数学期望的偏离程度).一组值的方差等于:

这里写图片描述

也可以写成:这里写图片描述

其中x i -μ叫做离均差.因此方差为改偏差的方均值,这也是用 σ 2 表示的原因.方差的平法跟 σ 叫做标准差

分布:

汇总统计量简单明了,但风险也搭,因为他们很有可能会掩盖数据真相.另一种方法就是看数据的分布,他描述了各个值出现的频繁程度.

表示分布最常用的方法是直方图,这种图用于各个值出现的频数或概率.

在这里,频数指的是数据集中一个值出现的次数,跟声音的音高和无

线电信号的调频没有关系。概率就是频数除以样本数量 n。

Python中,计算频数最简单的方法就是字典.给定一个序列t:

hist = { }

for x in t:

hist[x] = hist.get(x, 0) + 1

得到的结果是一个将至映射到频数的字典.将除以n即可把频数转换成概率,这称为归一化:

n = float(len(t))

pmf = { }

for x, freq in hist.items():

pmf[x] = freq / n

归一化之后的直方图称为PMF ,将 Python 中的字典称为函数可能会让部分读者感到困惑。在数学中,

函数就是一组值到另一组值的映射。在 Python 中,我们通常用函数对

象表示数学中的函数,但这个例子中用的是字典(字典也被称为“映

射”,所以称其为“函数”也是可以理解的)


一些概念

众数:

分布汇总出现的次数最多的值叫做众数

形状

以众数为中心,整个分布式不对称的;

异常值

远离众数的值叫做异常值

条件概率:

就是依赖某个条件下的概率.

归一化

将频数除以样本数量得到概率的过程

概率质量的函数(PMF)

以函数的形式表示分布,改函数将值映射到概率.

相对风险

两个概率的比值,通常用于衡量两个分布的差异

分散

样本或总体的特征,直观来说就是数据的变动有多大

修剪

删除数据中的异常值

方差

用于量化分散程度的汇总统计量

相关阅读

数据分析的3大作用:解决生活问题、降低被误导概率、职

数据分析能做什么呢?它能更好的解决问题,但同样的它也有很多的坑,那么我们要如何避开这些坑呢?前言说实话,数据分析是人人都会的,只是没

百度竞价新人提升赚钱概率的技巧方法

百度竞价,就是百度上投广告,销售产品的方式。百度竞价因为涉及的因素很多,又是烧广告费,所以对新人来说,门槛比较高,赚钱也比较难。所以

概率论一些知识

  目录 第一节 离散.连续.多维随机变量及其分布 1.1、几个基本概念点 1..2、随机变量及其分布 第二节、从数学期望、方差、协方

如何七周成为数据分析师14:概率论的入门指南

概率是度量一件事发生的可能性,它是介于0到1之间的数值。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正

我的人生算法之“概率思维”

把同样公平的机会放在放在很多人面前,不同的人生算法,会得到迥然不同的结果。罗胖在刚刚结束的“时间的朋友”跨年演讲中讲到一个概

分享到:

栏目导航

推荐阅读

热门阅读