谁说菜鸟不会数据分析
一、数据分析方法论
营销方面:4P、用户使用行为、STP理论、SWOT
管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等
PEST(宏观环境分析) | |||
P(political) | 政治环境(社会性质、执政党性质、方针、政策、法令) 政治经济体制、财政税收政策、产业政策等 | ||
E(economic) | 经济环境 | 宏观 | GDP及其增长率、进出口总额、利率、税率、通货膨胀率、 |
微观 | 消费价格指数、居民可支配收入、失业率、劳动生产率 | ||
S(social) | 社会环境(人口、性别比例、出生率和死亡率、种族结构、生活方式、教育状况、城市特点、宗教信仰等) | ||
T(technological) | 技术环境(新技术的发明和发展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数和保护情况等) |
v PEST——行业分析
v 5W2H——用户行为分析、业务问题专题分析
Why+what+who+when+where
How+how much
v 逻辑树——业务问题专题分析
要素化:相同问题总结归纳成要素
框架化:要素组织成框架,不重不漏
关联化:框架内的各要素保持必要的相互关系,简单不孤立
v 4P——可了解公司的整体运营情况
产品(有形产品、人员、组织、服务等)、
价格(需求、成本、竞争)、
渠道(生产到用户中间的各个环节)、
促销(广告、宣传推广、人员推销、销售促进)
v 用户行为理论——用户行为分析
用户使用行为的完整过程:
二、数据处理
1.数据清洗
v 清除不必要的重复数据
(1)Excel中的方法
Ø Countif(区域,条件)
编号 | 重复标记 | 第二次重复标记 |
A667708 | 1 | 1 |
A310882 | 1 | 1 |
A520304 | 1 | 1 |
A356517 | 1 | 1 |
A776477 | 2 | 1 |
A466074 | 3 | 1 |
A466074 | 3 | 2 |
A466074 | 3 | 3 |
A776477 | 2 | 2 |
A218912 | 1 | 1 |
Ø 利用excel的高级筛选功能
选择待筛选数据,‘数据’—排序和筛选中’高级’—勾选‘选择不重复的记录’
Ø 条件格式法
选中待筛选数据,‘条件格式’—‘突出显示单元格规则’—‘重复值’
Ø 数据表透视法
选中待筛选数据,分别拖至‘行’和‘数值’
(2)sql中
select Email from Person where Id in (select Id from Person group by Email having count(*)>=2)
(3)删除重复数据
Ø Sql
delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)
Ø Excel
选中待筛选数据,‘数据’—‘删除重复项’
v 填充缺失的数据
平均值/删除/模型训练出的数据/保留缺失记录(样本大,缺失占比小)
(1)EXCEL
Ctrl+G 定位空值
Ctrl+Enter 不连续区域中同时输入同一个数据或公式
查找和替换
v 检测逻辑错误的数据
Excel中:
If+countif
条件格式:标出逻辑错误的数据
or(逻辑值1,逻辑值2,...)
and(逻辑值1,逻辑值2,...)
2. 数据加工
v 数据抽取
主要工作:
Ø 合并字段
& 运算符
Concatenate(text1,text2,,text3,,text4......)
Text(text,格式)连接文本与数字时,指定数字的显示格式
Ø 截取部分字段(字段分列)
Excel中的分列
Ø 字段匹配
Vlookup(要查找的vlaue,单个区域期中第一列必须是要查找的值area,希望匹配的列序号,近似匹配1精确匹配0)
精确匹配就是指值必须相等
近似匹配指在待查找区域area的第一列找接近又不大于area的值
v 数据计算
加减乘除、自动求和、求平均值、
日期的加减法:
Today() | 返回当前时间 | 2018/4/7 |
now() | 返回当前时间 | 2018/4/7 9:55 |
Ctrl+; | 返回当前时间 | 2018/4/7 |
Date(year,month,day) | 返回指定日期(可用来进行加减) | =DATE(2017,2,8) 2017/2/8 =DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10) 2027/8/18(比上一个多了10年,6个月,10天) |
Datedif(起始日子,结束日期,unit) | 返回两个日期之间的年/月/日间隔数 Unit取值: Y:相差年份 M:相差月份 D:相差天数 YM:相差月份(忽略了年份和天数) MD:相差天数(忽略了年份和月份) YD:相差天数(忽略了年份) | =DATEDIF(G6,H6,"Y")&"年" 10年 =DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天数)" 10天(忽略年份和月份的天数) =DATEDIF(G6,H6,"YM")&"月(忽略年份和天数)" 6月(忽略年份和天数) =DATEDIF(G6,H6,"YD")&"天(忽略年份天数)" 191天(忽略年份天数) =DATEDIF(G6,H6,"D")&"天" 3843天 |
v 数据分组
vlookup
v 数据转换
‘选择性粘贴’—‘转置’
多选转化为0-1
=IF(ISNUMBER(HLOOKUP(find_value,area,列序号,0/1)),1,0)
=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)
v 数据抽样
Rand()函数
返回(0,1)的均匀分布随机数,每次计算工作表时都将返回一个新的数值
三 数据分析方法
数据分析的作用:现状分析、原因分析、预测分析
三大作用对应的分析思路:对比、细分、预测
相关阅读
不同运营方向的内容虽然千差万别,但想要把运营做到极致,必须持续运用数据分析思维改善自己的方法、提升自己的经验。运营到底是做什
主要关注几点:1、什么样的数据(销售?发展预估?等等)首先你要弄清楚。2、每月的销售数据变化情况。3、数据变化方向。4、分析数据中的要
有关流量的分析之后,本篇聊一聊关于转化的分析,上一篇中也讲到的,文章内容给大家一个借鉴参考,有各种不足或错误,欢迎评论交流。转化在
潇湘晨报专栏公共不会有安全连岳 厦门岛上的百万人口,经常读读当地媒体的话,可能对投资上百亿,号称投产后年产值达到800亿的PX项目
今天的主题是传统企业怎么说人话,那传统企业家为什么不说人话呢?因为那一代人在成长的过程中,经历过物质匮乏的年代,整个年代的主题就