必威体育Betway必威体育官网
当前位置:首页 > IT技术

《谁说菜鸟不会数据分析(入门篇)》总结

时间:2019-06-19 10:43:08来源:IT技术作者:seo实验室小编阅读:72次「手机版」
 

谁说菜鸟不会数据分析

一、数据分析方法论

营销方面:4P、用户使用行为、STP理论、SWOT

管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等

PEST(宏观环境分析)

P(political)

政治环境(社会性质、执政党性质、方针、政策、法令)

政治经济体制、财政税收政策、产业政策等

E(economic)

经济环境

宏观

GDP及其增长率、进出口总额、利率、税率、通货膨胀率、

微观

消费价格指数、居民可支配收入、失业率、劳动生产率

S(social)

社会环境(人口、性别比例、出生率和死亡率、种族结构、生活方式、教育状况、城市特点、宗教信仰等)

T(technological)

技术环境(新技术的发明和发展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数和保护情况等)

v PEST——行业分析

v 5W2H——用户行为分析、业务问题专题分析

Why+what+who+when+where

How+how much

v 逻辑树——业务问题专题分析

要素化:相同问题总结归纳成要素

框架化:要素组织成框架,不重不漏

关联化:框架内的各要素保持必要的相互关系,简单不孤立

v 4P——可了解公司的整体运营情况

产品(有形产品、人员、组织、服务等)、

价格(需求、成本、竞争)、

渠道(生产到用户中间的各个环节)、

促销(广告、宣传推广、人员推销、销售促进)

v 用户行为理论——用户行为分析

用户使用行为的完整过程:

二、数据处理

1.数据清洗

v 清除不必要的重复数据

(1)Excel中的方法

Ø Countif(区域,条件)

编号

重复标记

第二次重复标记

A667708

1

1

A310882

1

1

A520304

1

1

A356517

1

1

A776477

2

1

A466074

3

1

A466074

3

2

A466074

3

3

A776477

2

2

A218912

1

1

Ø 利用excel的高级筛选功能

选择待筛选数据,‘数据’—排序和筛选中’高级’—勾选‘选择不重复的记录’

Ø 条件格式法

选中待筛选数据,‘条件格式’—‘突出显示单元格规则’—‘重复值’

Ø 数据表透视法

选中待筛选数据,分别拖至‘行’和‘数值’

(2)sql中

select Email from Person where Id  in (select Id from Person group by Email having count(*)>=2)

(3)删除重复数据

Ø Sql

delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)

Ø Excel

选中待筛选数据,‘数据’—‘删除重复项’

v 填充缺失的数据

平均值/删除/模型训练出的数据/保留缺失记录(样本大,缺失占比小)

(1)EXCEL

Ctrl+G 定位空值

Ctrl+Enter 不连续区域中同时输入同一个数据或公式

查找和替换

v 检测逻辑错误的数据

Excel中:

If+countif

条件格式:标出逻辑错误的数据

or(逻辑值1,逻辑值2,...)

and(逻辑值1,逻辑值2,...)

2. 数据加工

v 数据抽取

主要工作:

Ø 合并字段

& 运算符

Concatenate(text1,text2,,text3,,text4......)

Text(text,格式)连接文本与数字时,指定数字的显示格式

Ø 截取部分字段(字段分列)

Excel中的分列

Ø 字段匹配

Vlookup(要查找的vlaue,单个区域期中第一列必须是要查找的值area,希望匹配的列序号,近似匹配1精确匹配0)

精确匹配就是指值必须相等

近似匹配指在待查找区域area的第一列找接近又不大于area的值

v 数据计算

加减乘除、自动求和、求平均值、

日期的加减法:

Today()

返回当前时间

2018/4/7

now()

返回当前时间

2018/4/7 9:55

Ctrl+;

返回当前时间

2018/4/7

Date(year,month,day)

返回指定日期(可用来进行加减)

=DATE(2017,2,8)

2017/2/8

=DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10)

2027/8/18(比上一个多了10年,6个月,10天)

Datedif(起始日子,结束日期,unit)

返回两个日期之间的年/月/日间隔数

Unit取值:

Y:相差年份

M:相差月份

D:相差天数

YM:相差月份(忽略了年份和天数)

MD:相差天数(忽略了年份和月份)

YD:相差天数(忽略了年份)

=DATEDIF(G6,H6,"Y")&"年"

10年

=DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天数)"

10天(忽略年份和月份的天数)

=DATEDIF(G6,H6,"YM")&"月(忽略年份和天数)"

6月(忽略年份和天数)

=DATEDIF(G6,H6,"YD")&"天(忽略年份天数)"

191天(忽略年份天数)

=DATEDIF(G6,H6,"D")&"天"

3843天

v 数据分组

vlookup

v 数据转换

‘选择性粘贴’—‘转置’

多选转化为0-1

=IF(ISNUMBER(HLOOKUP(find_value,area,列序号,0/1)),1,0)

=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)

v 数据抽样

Rand()函数

返回(0,1)的均匀分布随机数,每次计算工作表时都将返回一个新的数值

三 数据分析方法

数据分析的作用:现状分析、原因分析、预测分析

三大作用对应的分析思路:对比、细分、预测

相关阅读

如何将运营做到极致?你得会数据分析

不同运营方向的内容虽然千差万别,但想要把运营做到极致,必须持续运用数据分析思维改善自己的方法、提升自己的经验。运营到底是做什

如何进行营销数据分析

主要关注几点:1、什么样的数据(销售?发展预估?等等)首先你要弄清楚。2、每月的销售数据变化情况。3、数据变化方向。4、分析数据中的要

数据分析告诉你,转化才是王道

有关流量的分析之后,本篇聊一聊关于转化的分析,上一篇中也讲到的,文章内容给大家一个借鉴参考,有各种不足或错误,欢迎评论交流。转化在

连岳--公共不会有安全

潇湘晨报专栏公共不会有安全连岳 厦门岛上的百万人口,经常读读当地媒体的话,可能对投资上百亿,号称投产后年产值达到800亿的PX项目

马佳佳:传统企业家为什么不会好好说话?

今天的主题是传统企业怎么说人话,那传统企业家为什么不说人话呢?因为那一代人在成长的过程中,经历过物质匮乏的年代,整个年代的主题就

分享到:

栏目导航

推荐阅读

热门阅读