关注
最近放假闲来无事,自学Python爬虫技术,而又一年即将结束,便想回顾2018这一年产品人都在关注什么?于是爬取了seo实验室的网站数据,看看能不能在其中发现一些有趣的东西。Enjoy~
seo实验室网站(以下简称“人人”)是互联网产品经理和运营人的学习社群,于是选择爬取人人的网站数据用来分析。笔者爬取了2018年2月到2019年1月的文章发表和阅读数据,从作者和读者两个视角进行分析。
一、分析的技术思路
前期准备主要是数据的爬取和清洗,爬取了文章标题、阅读量、评论数、收藏量、评论数和发表时间等字段。再确定分析的目的来确定问题分析的框架,最后针对框架中的问题进行数据可视化和撰写分析报告。
为了避免爬虫对网站服务器造成负担,笔者已经在上述链接网页中已经上传所有爬取的数据,大家要数据的可以直接下载,避免大规模爬取。
二、分析框架
本次分析的文章时间是从2018年2月到2019年1月,从作者发表文章和读者阅读两个视角进行分析。
三、作者视角
1. 作者写的话题都是什么?
从爬取到的数据中选择文章标题字段,按照月份为单位,提取每个月文章标题的关键字,从而得到不同月份的文章话题,也可以从中看看2018年的互联网热点变化。(进行分析的数据截取了每个月前10高频率的关键词)
关键词频率图,按照颜色深浅(方块上的数字是频数)突出词频
从以上的统计分析图可以看出文章的话题集中度:
2018年2月-2019年1月发表的文章持续、高频率出现的关键词是,“产品经理“(产品、经理)、“设计”、“运营”、“营销”等。基本上是符合seo实验室网站的定位,作为互联网产品经理和运营人的学习社区,笔者在写文章的话题方面也都是围绕着产品设计、运营、营销有关的内容话题。
在产品经理和运营所需要的技能方面,“Axure”、“交互”、“数据”、“需求”和“增长”等关键词也出现在部分月份前10的高频率关键词。这些关键词基本上是偏干货类的产品和运营的核心技能相关的文章,比如“需求分析”、“交互设计”和“数据分析”等。
对于一些比较突出的关键字,比如“区块链”,在2018年初区块链技术在网络上引起了大家广泛的讨论,尽管当初区块链的讨论风极一时,但是毕竟区块链的技术尚在讨论之中,未来如何在实际产品中的运用仍然不明确,之后对区块链的讨论也少了很多。另外“滴滴”关键词也出现在2018年4月的高频词中,也是因为滴滴宣布开展外卖业务,开启和美团竞争之门。
在seo实验室网站的文章中除了有关产品和运营相关内容和核心技能的分享和讨论外,作者也紧跟互联网热点问题展开讨论。
2. 大家都在什么时间发文章呢?
了解了作者们都在写什么话题的文章之后,我们再看看大家都在什么时候发文章呢??
(不同颜色的面积代表星期为单位的文章数量,月份对应的高度代表月份为单位的文章数量)
在月份方面,除了在2月处于中国农历春节,文章数量明显较少,春节假期过后,文章的数量明显低提高。上半年一直到8月份,文章数量在逐步地增加,特别是7、8月份明显提升,可能是因为上班族上半年的工作压力较小,能有更多有空的时间写文章,7、8月有可能部分学生放假后也能有时间写文章,这部分因为没有网站的具体用户画像,所以没有能准确的数据说明。可能是下半年的工作压力更大,文章的数量逐渐减少。
在星期方面,看每种颜色的面积,基本上符合正常的规律,星期六、日的数量相较于工作日的数量减少。在工作日中星期一到星期五,文章的数量逐渐减少。基本上是上班和上学的作息规律相同。
3. 大家发表的文章质量如何?
文章质量的指数与阅读量、收藏数、点赞量和讨论数息息相关,要称得上是一篇质量好的文章,并不能仅仅从阅读量一个维度来看;为了杜绝出现标题党的可能,我需要重新定义以一个指数来衡量文章的质量,暂且称之为“干货指数”。
干货指数=(点赞数+收藏数)/阅读量
由于“干货指数”除出来的数值最后很小,为了方便比较和观察,可视化的时候同时将数据扩大了1000倍。
上图是所有文章的“干货指数”(以下称指数)分布情况,通常情况下,指数越高代表的文章质量越高。
只有15%的文章指数大于15,这些文章的有较好的质量;一半左右的文章指数在5-15之间,收藏和点赞数都比较正常;但是有将近38%的文章指数在5以下,这里部分文章可能存在标题文的情况,需要进一步提高网站文章的质量。
以下是“干货指数”前10的文章列表:
这类文章聚焦于真实行业中的产品设计方法和产品核心技能,文章的内容具有实际操作意义,成为大家收藏和点赞的对象。大家也可以搜索一下这些文章用于学习提高产品能力。
四、读者视角
1. 读者都喜欢看什么文章呢?
上面从作者的视角汇总了作者们关注的话题、作者发表文章的时间和高质量文章的情况,下面我们从读者的视角来看读者们偏爱阅读哪类文章呢?
(上半部分图表,高度代表浏览量,颜色深浅代表收藏量,宽度代表点赞数;下半部分图表高度代表文章数量)
通过和上下两个图表对比,我们可以得出:
在文章数量方面,业界动态、产品设计、产品运营和产品经理的文章数量相对较多,一些更细分的领域,如区块链、新零售和ai人工智能这类的文章较少,结合现在的发展趋势,这类文章的还存在很大的需求,对这些领域有研究的作者可以分享文章;
在浏览量、点赞数和收藏量指标上,分析测评、产品经理、原型设计、产品运营和数据分析类文章的浏览量、点赞数和收藏量相较于其他都很高,特别是原型设计和数据分析类文章数量较少,但还是有很高的浏览、点赞和收藏量,人们对这类技术实用文章的需求还是很大。
可以关注到一些特殊情况,业界动态类文章相对于类数目多很多,但是阅读、点赞和收藏量却比较低,笔者回顾网站的文章分类标准,发现业界动态的文章其实包含了很多不同的内容话题,内容比较宽泛,对话的讨论没有深入,可能会导致读者没有欲望读这类文章。
2. 大家都在什么时候读文章呢?
前面我们分析了作者都在什么时间发表文章,下面我们来看看读者阅读的时间段和发表有没有相照应呢?
(高度代表阅读量,颜色深浅表示不同指数)
与作者发表文章相同,星期六、日相较于阅读的数量相较于工作日有明显减少。在阅读量方面,星期一的阅读量最高,一直到星期五数量一直明显逐渐下降。收藏量、点赞数和评论量的趋势与浏览量大致相同。在星期一的时间大家有更多的时间阅读,互动的欲望也更高。
3. 读者的阅读行为偏好
(图表中的点代表文章,横轴为文章点赞量,纵轴为收藏量,颜色深浅为阅读量)
消费者的阅读行为主要从点赞数、收藏量和讨论数量几个指数来分析。一般情况下,读者认为文章的干货足,所讲的内容更有实用价值,就会收藏文章;对于一些精彩、轻便和易阅读的文章,更容易点赞。从上图中点的分布情况,大多数点分布趋向于Y轴(收藏量),读者收藏的行为要高于点赞。
从上面各类型文章的数量也可以看出,产品设计、产品运营和产品经理核心技能类的文章数量确实很多,能够为读者带来一些收获。
下面看看收藏量、点赞数和评论数前10的文章,看看读者更偏好那类型的文章:
从收藏量的前10文章类型来看,PRD文档、原型设计、需求文档和技术知识占据了绝大部分,这些知识都是作为产品经理需要掌握的做基础的技能。
大家也可以去网站中搜索这些文章,对需要入门产品经理的同学会有一定的帮助。
在点赞数前10的文章中,除了高质量的产品分析文章之外,比较有趣的内容获得大家的青睐,例如《数据挖掘实操|用文本挖掘剖析近5000首《全唐诗》》、《高能,如何用互联网思维卖包子》等,文章内容有趣、容易阅读、能够在短时间内吸引读者的眼球。
找到评论数前10的文章后,笔者阅读这些文章的评论内容,发现大部分评论是向作者留言要Prd文档资料之类的,并没有进行有关文章内容的有效讨论。
像《拼多多现象的原罪是什么?》具有“争议性”话题的文章能够吸引读者的讨论。但是总体来说,这种有效的讨论并不是非常多。
笔者另外浏览了以下网站的另外一个模块——热门讨论,大家会在这个模块里面讨论一些时效性、具有“争议性”的话题,这可能也使读者用户更习惯在热门讨论区分享观点。
总之,更具有阅读性和有趣性的文章能够获得大家的点赞;更有干货和实用技能的文章,大家更会收藏用于今后的学习。
总体来说,从网站整体点赞和收藏量来看,读者收藏的行为多于点赞行为,大部分文章都很有干货。
五、总结
本篇文章通过对作者投稿的类型、时间、质量和读者阅读的类型、时间、阅读行为偏好地分析,挖掘其中还存在需求的文章类型,利用数据分析给作者投稿、读者阅读学习和网站文章推送给予一些指导意见。
本人刚开始学习爬虫和数据分析,如果有分析不对或有更好的观点补充,欢迎讨论或私信。
最后,希望通过这篇文章可以帮助大家回顾2018,给大家2019的工作学习能够给予一些帮助。
祝大家新年快乐!
题图来自 Unsplash,基于 CC0 协议
相关阅读
求职分为了解岗位招聘信息和面试两个阶段,我分别从这两个阶段入手,对产品经理岗位的招聘过程进行分析总结。希望这篇文章能对求职产
产品经理日报第993期|新浪微博、ACFUN、凤凰网的视频要
哈喽,你我相约七点半,你来了么^_^产品经理日报继续为您带来今日最新的资讯:新浪微博、ACFUN、凤凰网的视频要被关了?只因它们没有视听
近几年,智能音箱十分受欢迎。事实上,每一款智能音箱的相关功能都必须通过app实现,本文针对百度旗下的小度音箱app进行了一次详细的分
我一直追求简单而高效的设计,尤其欣赏臭鱼这一篇文章《为产品结构的设计,为用户任务的设计》。他用图1很好的诠释了这个观点:首先要
为何要写支付宝的蚂蚁森林?其实这个念头,由来已久,蚂蚁森林对于我本人来说,是除了支付场景外唯二能打开支付宝的强驱动力。没有蚂蚁森