必威体育Betway必威体育官网
当前位置:首页 > IT技术

统计分析之为什么需要统计

时间:2019-08-16 02:13:14来源:IT技术作者:seo实验室小编阅读:83次「手机版」
 

统计分析

● 每周一言

心中有数,才能气定神闲。

导语

从本周起,小斗开始写统计分析相关的文章

特征的优劣直接决定了模型是否奏效,而特征提取的关键则是充分理解数据。一名优秀的算法工程师,一定先是一名优秀的统计(跑数)工程师。那么,我们为什么需要统计?

统计

看过三国演义应该知道,诸葛亮排兵布阵时经常这样说:关羽听令!给你三千精兵,从左路包抄曹军;张飞听令,给你五千精兵,从右路包抄曹军……由此可知,诸葛亮打仗,必定已经掌握了己方有多少将领,多少精兵,多少残兵,多少粮草以及战地相关的地势地形等。

fig1

做算法也是同样的道理。

拿到数据,切忌先动模型。如果不看数据不分析数据就直接上模型,好比诸葛亮当军师的第一天就随便拨点士兵操练八卦阵。只有看过数据,理解数据,才能提取出行之有效的规则和特征。理解数据好比打地基,只有地基牢固,才能建好大楼。在不了解数据的情况下,直接加特征上模型,很可能适得其反。

fig2

拿到数据,先统计各种数量。比如,样本总量,不同类别的数量等。了解了各种数据量级,能给模型的训练时间作参考,还能指导设置一些训练参数,比如epoch和validation step。当不同类别样本数量差别较大时,还能提前采取一些针对样本不均衡的策略。

拿到数据,要看看特征的分布情况。因为特征分布的统计结果,往往与我们直观的理解不完全一致。比如某一个特征在直观理解上和目标label看起来呈现正相关,其实在统计指标上截然相反。

除此此外,在做特征无量纲化的时候,也得先看看分布。比如标准化要求特征分布必须服从正态分布或偏正态分布,连续特征分箱时也需要根据特征分布来确定如何等频等宽。

fig3

拿到数据,抽样分析具体样本情况。想真正理解数据,就必须对数据进行充分的细节剖析。比如可以假定自己就是当前分析的样本,设身处地的理解这个样本的行为特征,以及为何如此的原因。只有这样才能真正掌握数据意图,达到知己知彼。

拿到数据,特征工程必不可少。统计分析的目的说到底还是为了做好特征工程,因此在正常情况下,上模型前除了必要的统计分析,不能少了特征工程。

fig4

总之,在上算法模型之前先把统计分析做足做全了,才能像诸葛亮带兵打仗一样,做到胸中百策,游刃有余。

以上便是统计分析的开篇讲解,敬请期待下节内容

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众对半独白

face

相关阅读

2016双12销售额数据统计分析

2016年淘宝双12与双11经常会被淘宝用户拿来做比较,去年,淘宝双12销售额是912亿元,今年淘宝双11销售额是1207亿元。那么2016双12销售

Android 友盟统计集成

目录 一、参考文档 二、简介 三、集成准备 (1)先注册官网账号 (2)点击【产品】——【移动统计(U-App)】——【进入新版】——【添加应用

移动医疗APP统计分析:移动医疗产品的市场细分

市场细分:依据用户的需求和欲望、使用行为和消费习惯等方面的差异,把某一产品的市场整体划分为若干用户的市场分类过程。每一个用户

【学习笔记】统计学入门(4/7)——正态分布

来源:http://study.163.com/course/courseMain.htm?courseId=1005232026 索引—— 基本概念 连续变量的统计描述 分类变量的统

[统计学理论基础] 协方差与相关系数

1 协方差 二维随机变量(X,Y),X与Y之间的协方差定义为: Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 其中:E(X)为分量X的期望,E(Y)为分量Y的期望 协方

分享到:

栏目导航

推荐阅读

热门阅读