高斯模型
(一)异常检测---基于高斯(正态)分布
m个训练样本,每个样本有n个features
即m个样本的每个属性集都呈现高斯分布,因此有以下计算:
例子如下:
(二)评价异常检测系统
将所有数据按照60%,20%,20%的比例分成三部分,分别为training set、cross validation set和test set.
例子如下:
评价既然采用召回率、准确率和F1值,同时,可以基于CV选择一个合适的异常参数
(三)异常检测和监督学习的区别
(1) 异常检测算法具有少量的异常样本和大量的正常样本,而监督学习算法有大量的positive和negative样本。
(2) 异常检测有很多的异常类型,一般的算法很难通过少量的异常样本学习到多有的异常类型,而监督学习算法有足量的正样本和负样本,能够让算法学习到各个样本的特征。
(3) 异常检测中未来还可能出现许多新类型的异常。
(4) 异常检测算法用于诈骗识别,工业零件问题检测等,监督学习算法用于垃圾邮件的分类,天气预报和癌症检测等
(四)异常检测的参数选取
问题1:样本数据的某些属性可能不呈现高斯分布
解决方案:通过数学变换(log,开根号,平方等)使之呈现高斯分布。
问题2:如何选取有用的features
方法:观察已有的属性分布,画出高斯分布图形,观察到有些异常样本被正常样本包围,思考原因,这时,可以试着添加一个新的feature,这个新的feature能够将异常样本从正常样本中区分开。对每个不能被区分的样本进行同样的思考,这样就有了能够将的所有异常样本区分来的features.
一个例子,如当x1,x2,x,x4不能将异常的computers从一个data center中区分开时,可以试图添加x5,x6属性,使之区分开。新添加的属性可以是已有属性的数学组合。
(五)多元高斯分布
将所有的features为轴定义为一个n为空间的高斯分布,其中均值是一个1*n的矩阵,标差是一个n*n的矩阵。
一些例子如下:
(六)使用多元高斯分布的异常检测
1、均值和方差的选取:
2、多远高斯分布的异常检测模型和一般高斯分布的异常模型的使用区别
相关阅读
1 基本知识介绍 1.1回归模型的引入 由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎
先摘一下百科的说法“哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于
Oracle DBA学习基础篇(一) Oracle体系结构 学习笔记
这里是我通过Oracle DBA实战这本书学习的 Oracle体系结构,大部分是我对书中的内容做的总结,还有遇到不理解的知识点,通过查询资料做
注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代
本篇文章主要记录Firebase在Android上的学习实践,对Firebase进行实践与测试其在中国的使用情况、GCM迁移到FCM、及Firebase与Googl