概率
综述
本文总结了机器学习中经常遇到的概率统计中的一些基础概念,在平时经常遇到写下来供自己以后查阅。
清单
样本均值
数学期望
期望
方差
样本方差
协方差
最大似然与最大后验
共轭先验
偏差和方差
样本均值
现在我们拿到了
数学期望
数学期望就是样本均值,因为我们不知道拿到多少样本,所以数学期望的值是不确定的。
期望
针对一个事件不管他的样本数量多少,我们认为它的期望是个固定值。可以通过以下方式得到:
方差
方差的计算公式为:
样本方差
首先上样本方差的计算公式:
所以才有了当分母为
偏差和方差
前文刚刚引入了偏差的概念,趁热打铁,在这里接着把偏差和方差理论写了吧。
同样偏差和方差本来是统计学里面的概念,这里主要用来分析机器学习中的算法。当然更详尽的还是要移步博客:理解机器学习中的偏差与方差。在拜读PRML的书,方差偏差的推导看的不是很明白,但博客已经说的很清楚了咯。
学习算法的泛化误差可以分成三个部分:偏差、方差和噪声。在衡量学习算法性能时主要关注于偏差和方差。因为噪声一直存在不可约减。接下来看一下什么是它们是什么以及怎么影响算法的泛化能力的。
偏差的意思就是偏离真实情况的程度,比如分类任务中真实情况就是这个类别的真实标签。刻画了学习算法本身对数据空间的拟合能力。方差本身描述的就是一种离散程度,在机器学习中表述为随机变量在期望值附近的波动程度。刻画了数据扰动对算法性能造成的影响的大小。通过下面两张图可以很好地阐述清楚两者的关系。
自然希望我们学习的模型偏差方差都要小一点,但是在真实的情况下偏差方差调节是有冲突的。1、给定一个学习任务, 在训练初期, 由于训练不足, 学习器的拟合能力不够强, 偏差比较大, 也是由于拟合能力不强, 数据集的扰动也无法使学习器产生显著变化, 也就是欠拟合的情况;2、随着训练程度的加深, 学习器的拟合能力逐渐增强, 训练数据的扰动也能够渐渐被学习器学到;3、充分训练后, 学习器的拟合能力已非常强, 训练数据的轻微扰动都会导致学习器发生显著变化, 当训练数据自身的、非全局的特性被学习器学到了, 则将发生过拟合.
协方差
前文讲述方差的概念,为什么又要提出协方差呢?前文中所述的方差考察的是数据在平行特征空间轴方向的数据传播。如果我们想要考察其它方向呢?这就需要用到协方差了,同样的协方差的几何解释国外的大神,他的文章特别棒。已经阐述的及其详细了,给出一篇译文。
协方差矩阵可以很好的刻画数据在各个方向上的传播情况,通过矩阵的分解,还可以通过特征值特征向量的方法来将数据传播的方向和力度刻画出来。
最大似然和最大后验
大家学习机器学习第一次接触这个概念就是线性回归的算法吧。自己刚开始的时候一头雾水。PRML中第一次提到似然函数还是刚刚引入贝叶斯定理。提到这里索性一次把这里面的概念都解释清楚吧。
先验概率
从字面解释就是在我们进行这次概率推算活动之前就存在的概率。也就是说我们根据已经发生的一些知识推算出来的一个概率。
后验概率
同理,后验概率就是我们已经进行概率推算的结果,拿到这个结果去估计产生这个现象的原因的概率叫做后验概率。
似然估计
一件事情可能有多种可能,通过可能估计结果的方式是可行的。
接下来就要上主菜了贝叶斯公式:
P ( θ ∣ x ) = " role="presentation">P ( x ∣ θ ) ∗ P ( θ ) P ( x ) 贝叶斯公式对应位置的子项含义分别是:
后 验 概 率 = ( 似 然 概 率 ∗ 先 验 概 率 ) / e v i d e n c e " role="presentation">接下来我们从似然估计这个概念说起。起初对这个问题存在疑点有两个:1、为啥似然函数用来估计参数呢?2、为啥似然函数与似然概率想given的东西是相反的呢?
什么是似然性?在统计学中,概率与似然性有着明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。所以,在一定程度上可以把似然函数理解成条件概率的逆反。但是观察这两个表达式:
发现其中项颠倒了,似然概率和似然函数有什么不同呢?其实并没有什么不同,想仔细了解的可以查看维基百科的例子。其实简单一想,似然不也是一种概率吗?P ( A ∣ B ) − − > L ( B ∣ A ) " role="presentation">L ( B ∣ A ) " role="presentation" style="position: relative;"> 我们可以写成P ( B ∣ A ) " role="presentation" style="position: relative;"> 通过条件概率公式:P ( B ∣ A ) = " role="presentation" style="position: relative;"> 其中,P ( A , B ) P ( A ) P ( A ) " role="presentation" style="position: relative;"> 表示已经发生的概率为1。P ( A , B ) = P ( B ; A ) " role="presentation" style="position: relative;"> 这样计算很容易了。也就是可以得到L=P。所以最大似然概率的含义就是,在已知观测的数据的前提下,找到使得似然函数概率最大的参数值。似然函数关注的不是函数值,而是每次参数更改时产生的变化。引最大后验
说清楚似然估计这个MAP就简单了,就是在似然函数后面乘上个先验,组成贝叶斯即可。
共轭先验
这个概念第一次接触于PRML书中,一看“共轭”两个字挺吓人的。轭分布就是先验概率和后验概率具有一样函数形式的分布形式,一样的函数形式的含义举个例子就是假如先验分布函数是形如
那么共轭先验又是什么概念呢?因为在现实建模问题中,往往我们先得到和固定的反而是似然函数(其实也很好理解,客观的实验观察数据才是第一手最solid的材料),这时先验函数(可以理解为先验知识或者是对后验分布的一种假设和猜测)是可以选择的。这时如果我选的先验分布最后乘上这个似然函数,使得后验分布与先验分布共轭,那么我们就称这个先验函数为似然函数的共轭先验。很明显的,后验分布和先验分布共轭的情况下是可以大大简化计算量的。所以在确定似然函数后寻找先验分布时在该似然函数的共轭先验中寻找是比较好的一种选择。
相关阅读
今天小峰seo博客为大家分享关于seo知识中的关于收录和排名统计分析情况,我们大部分做seo关键词排名比较关心的是收录和排名,那么这
顶点式:y=a(x-h)²+k(a≠0,a、h、k为常数),顶点坐标:(h,k)。。。
软件工程知识点总结 有以下知识点(考试内容,当然不止这些) 1. 软件工程的定义 2. 软件生存周期 3. 软件过程模型 4. 需求分析的定义
Android 基础知识按键篇--------------触摸和按键
Android 下常见的几个触摸事件 (1).dispatchTouchEvent 主要进行事件的分发和处理,当返回true时自己处理,自己消费,事件消失,当返回fal
前段时间在极客时间上购买了杨晓峰老师的《Java核心技术36讲》,趁着这段时间有空,对相关知识点做了一个整体的大纲,也对自己所掌握的