统计分析
● 每周一言
心中有数,才能气定神闲。
导语
从本周起,小斗开始写统计分析相关的文章。
特征的优劣直接决定了模型是否奏效,而特征提取的关键则是充分理解数据。一名优秀的算法工程师,一定先是一名优秀的统计(跑数)工程师。那么,我们为什么需要统计?
统计
看过三国演义应该知道,诸葛亮排兵布阵时经常这样说:关羽听令!给你三千精兵,从左路包抄曹军;张飞听令,给你五千精兵,从右路包抄曹军……由此可知,诸葛亮打仗,必定已经掌握了己方有多少将领,多少精兵,多少残兵,多少粮草以及战地相关的地势地形等。
做算法也是同样的道理。
拿到数据,切忌先动模型。如果不看数据不分析数据就直接上模型,好比诸葛亮当军师的第一天就随便拨点士兵操练八卦阵。只有看过数据,理解数据,才能提取出行之有效的规则和特征。理解数据好比打地基,只有地基牢固,才能建好大楼。在不了解数据的情况下,直接加特征上模型,很可能适得其反。
拿到数据,先统计各种数量。比如,样本总量,不同类别的数量等。了解了各种数据量级,能给模型的训练时间作参考,还能指导设置一些训练参数,比如epoch和validation step。当不同类别样本数量差别较大时,还能提前采取一些针对样本不均衡的策略。
拿到数据,要看看特征的分布情况。因为特征分布的统计结果,往往与我们直观的理解不完全一致。比如某一个特征在直观理解上和目标label看起来呈现正相关,其实在统计指标上截然相反。
除此此外,在做特征无量纲化的时候,也得先看看分布。比如标准化要求特征分布必须服从正态分布或偏正态分布,连续特征分箱时也需要根据特征分布来确定如何等频等宽。
拿到数据,抽样分析具体样本情况。想真正理解数据,就必须对数据进行充分的细节剖析。比如可以假定自己就是当前分析的样本,设身处地的理解这个样本的行为特征,以及为何如此的原因。只有这样才能真正掌握数据意图,达到知己知彼。
拿到数据,特征工程必不可少。统计分析的目的说到底还是为了做好特征工程,因此在正常情况下,上模型前除了必要的统计分析,不能少了特征工程。
总之,在上算法模型之前先把统计分析做足做全了,才能像诸葛亮带兵打仗一样,做到胸中百策,游刃有余。
以上便是统计分析的开篇讲解,敬请期待下节内容。
结语
感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白!
相关阅读
2016年淘宝双12与双11经常会被淘宝用户拿来做比较,去年,淘宝双12销售额是912亿元,今年淘宝双11销售额是1207亿元。那么2016双12销售
目录 一、参考文档 二、简介 三、集成准备 (1)先注册官网账号 (2)点击【产品】——【移动统计(U-App)】——【进入新版】——【添加应用
市场细分:依据用户的需求和欲望、使用行为和消费习惯等方面的差异,把某一产品的市场整体划分为若干用户的市场分类过程。每一个用户
来源:http://study.163.com/course/courseMain.htm?courseId=1005232026 索引—— 基本概念 连续变量的统计描述 分类变量的统
1 协方差 二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方