确实,工作一年了,都没有好好总结一下自己这一年所掌握的一些基本(甩锅)技巧,算作对一个数据分析岗工作的入门检视。
今天主要分享一下处理数据的一个基本思路以及通过数据辅助运营的一个重要理论方法和一个重要数据分析方法。
数据分析确实是这一年来的主要工作,相信很多做数据分析的新人在拿到数据的第一刻都会疑问:我该拿这些数据做些什么?
第一步:分析数据的维度
拿到数据后首先需要做的,是大概看一下数据的维度,就像你拿到一个多面体后,首先看看有几个面。以本人接触的产品数据为例,通常通过系统采集数据后会发现存在多维度的数据值:
数据包含的字段非常的多,所以要将数据先划分成不同维度进行分类。比如存量客户、睡眠客户、累计注销客户等体现了产品目前的规模,月活、日活、睡眠客户、用户平均使用时长等则体现了用户群体的活跃程度可以用来反映某一活动时间内用户对于产品活动的反应。
将所以字段对应的数据进行分类总结后,便可以筛选出你做报告时所需要用到的关键数据。
第二步:建立数据透视表
对于一个大学用惯了Matlab处理数据的直男来说学习EXCLE的过程是通过但是却有意义的,因为在计算量不大的情况下电脑的CPU在EXCLE上的利用率比Matlab要高出许多。
数据透视表的用途是什么?
答:用于快速汇总数据
数据透视表新手入门,没得班门弄斧,推荐几个高质量的EXCEL教学视频。
假的传送门:跟王佩丰学Excel视频教程(网易云课堂)
总课时也就60小时,对于提升日常工作效率帮助还是挺大的,云课堂的良心课程之一。
第三步:分析方法简介(一)
如何能够在老板面前汇报(装逼)一下自己对于公司产品用户的一个理解呢?下面介绍一种简单却高逼格的方法:Vintage分析法。其实说到这种方法,很多金融从业人员,尤其是风控从业人员对它一定不陌生,Vintage分析法主要是被用于信用卡领域的客户账龄与用户逾期行为以及用户迁移率之间的关系。
数据源(一)
然而只能看逾期情况吗?显然不是的。如果将用户账龄换成其他度量标准呢?比如活动周期,APP迭代周期。通过统计某个固定时间段的注册用户使用产品后,在不同使用时长中所表现出来的不同用户行为数据。
怎么理解这段话?打个比方,在2017年,每个月有1W的客户注册英雄联盟账号,而2017年1月开始,英雄联盟推出了某款新功能,但是不知道用户对于新功能的反应,于是收集了如下一份数据。
从数据可以看出,新功能上线后,在某个月份注册的用户使用该功能的频率不断下降。以2017年上半年为例,用户注册后使用新功能随着用户使用英雄联盟时间增长而降低对于该功能的使用,在使用四个月后,基本上只有50%的用户在使用该功能。可以得出以下结论:随着用户熟练使用英雄联盟,该款功能对老用户的作用不明显。
其次,从用户注册时间对于该功能的影响来看,新功能上线一年的时间内没有出现较为明显的下滑,可以得出结论:新用户比较依赖这个功能,对新用户帮助较为明显。
再从整体的曲线走势分析,可以得出结论:四个月的使用时长,是这个新功能辅助用户数量掌握英雄联盟的周期。
因此Vintage分析法的用法是灵活的,并且可以结合其他的分析方法、运营数据得出一些更加有趣的结论。以上述数据为例,是否有可能在2018年对某个功能进行了升级改版,导致了新用户在注册的首月活跃度下滑严重?
用数据辅助运营确实非常有意思。
一个有趣的理论:幸存者偏差
这个二战英国飞机的故事,被很多人认为是幸存者偏差这一说法的源头。
为了提高飞机防御能力,挽救更多的飞行员和飞机,军方建议根据返航飞机的弹孔分部情况,在密集部分加厚装甲。这个最初的想法,其实错的离谱。这些飞机有弹孔实现了返航并且没有被击落B。但是问题是要做到防止被击落。
当时美军统计研究部的统计学家亚伯拉罕·沃尔德(AbrahamWald)拒绝了这一建议,他提出应该在弹孔不密集的地方做文章 ,因为很可能这些地方中弹就坠落了,以至于返航的飞机上看不到这些弹孔。当然,他如果就是这么抖机灵、脑筋急转弯一下,也就是不是统计学家了。此人当时也算小有名气的学者了,诺贝尔奖经济学奖得主弗里德曼,为美国海军研究炸弹试验方案时,卡在一个统计学问题上,就是求教这位老兄才解决的。弗里德曼把这段经历写入了自传,称赞道:“他(沃尔德)是一位杰出的统计学家,为统计学做出了创造性的贡献。
个人在认为这也是在一个活动、产品运营中不可忽略的问题。还是以之前的数据源做例子(抱歉拿不到非常合适的数据源)
假设这是某P2P平台的用户社区活跃情况,可以看出,新用户的活跃程度远远高出老用户。而此时公司需要做一个活动来拉动用户购买公司的理财产品,那么你会怎么做?
很有意思的一个问题,我当时第一反应是针对2018年的用户群体推出理财产品,原因是他们社区活跃程度高,曝光率和点击率均会处于较高的水平。
但是结果比较有趣,运营经理给出了另一个数据,就是社区中不活跃的老用户群体的购买公司理财产品的体量是新用户的好几倍。
也就是说这群潜水分子很有可能反而是你的金主。幸存者偏差指的是只能看到经过某种筛选而产生的结果而没有意识到筛选的过程,因此忽略了呗筛选掉的关键信息。(这句话来自官方)
完
文中的数据表均为模拟的数据,并非准确数据。
目前主要做办公数据处理,虽然计算量不大,但是大学用的辅助计算机语言完全用不了,并且数值分析的方法似乎不太适用于普通的运营、经营分析,大家都是初学者。
将数据可视化,可以减少很多的废话,在平时工作撕X的时候最有力的回击肯定就是数据说话,一个精准有效的数据胜过千百次雄辩。
始发于简书:忘川1224
相关阅读