用户评论
评论区研究虽然是一个以文本内容分析为主的研究,但是在数据量庞大的情况下,我们不能忽略掉量化处理和反馈结果的客观性与准确性。
网上购物时,我们一般只能看到商品的图文详情,但是光凭图片与文字,往往无法对商品的优劣做出准确判断,这个时候,已购者的评论对我们是否会购买该商品起着很大的作用。在阅读网站或者APP上选择一本书进行阅读或购买也是同样的道理。因为错误的选择意味着我们要为这本书付出时间甚至金钱。因此,除了了解出版社、内容简介等书籍相关信息之外,我们还需要参考其他读者的意见,来判断这本书的质量到底好不好,合不合我们的口味。
另一方面,随着IP的概念席卷整个文娱产业 (如阅读、影视、游戏、动漫、音乐等等) ,版权费也随之一涨再涨,有的甚至高达几千万元。互联网免费时代终结,付费模式随之袭来。面对高昂的运营成本,营收逐渐成为内容型产品策划与运营主要关注的指标。从这个角度来说,关注阅读产品的评论区与关注电商产品的评论区对策划和运营同样重要。因此,作为用户研究人员,有时也需要协助产品去了解产品内甚至是各个渠道上的用户反馈情况。
1项目前期的分析与思考
项目的总体目标是了解目前平台评论区的用户反馈与质量,同时关注用户的潜在需求与问题点,为后续产品与运营提供可行性方向指导。在项目开始前,我们主要关注了以下几点:
展现用户的评论反馈似乎不是难事,难点在于数百万的评论怎么展示?▪ 如何提取“合适的、有代表性的”评论供产品方了解情况?
评论的质量是一个抽象名词,我们该怎样将其量化?质量的衡量标准是什么?
书评文本不同于问卷开放题的文本,它没有统一的主题与中心。如何从这些评论中区分出优秀体验点和低劣体验点,分辨出哪些是用户的感情,哪些是需求?
最后也是最重要的一点,即落地性:如何输出结论,才能指导产品运营与设计?
一般来说,当看到舆情或者评论分析项目时,我们的第一反应会认为这应该是一个“文本分析”项目。其实不然,文字虽然是评论的主体,但是与一般的定性类项目不同。在面对庞大的数据量时,需求方更希望能得到一个关乎量的反馈,一个客观的、可以明确目前平台书籍质量在用户心中到底是好是坏的反馈;当然还有背后的原因,就是用户到底有哪些满意的或者不满意的地方?用户的需求是什么?哪些是我们可以满足的?因此,我们确立了以客观的数据为骨架,以文字内容分析为血肉的大方向,将产品分为出版和原创 (原创又分为男频和女频) 两个大的模块考量,同时,考虑数据的可得性和不同分析维度,在按照书籍提取了评论文字内容之后辅助分析了以下指标:
(1)每本书评论数量、是否是大师评论、评论的星级
这些指标与评论密切相关,通过评论的数量、质量 (大师评论、星级) 等,可以在一定程度上反应版块的活跃度和受欢迎程度。当然也可以满足统计出一些基本的数据,在整体上对于评论的情况有一个大致的了解,明晰后续改进的方向。
(2)书籍名称、书籍类型、PV/UV
但是,仅仅分析书评相关显然是不够的,因为书评可以视为一个因变量,而这个因变量很大程度上受书籍内容类型和质量的影响,所以在信息挖掘的时候也要考虑书籍层面等背景信息相关维度的指标。选择PV/UV的主要原因是考虑到不同的书籍评论曝光程度不同,评论影响力也不同。
(3)用户注册时间、用户等级
同时,在定量研究中,我们往往很关注受访者信息,也就是样本的profile,因为不同背景的人群,往往会得出截然不同甚至相反的结论。因此,我们同时也会提取用户的注册时间与等级。这样我们就可以知道平台评论用户的构成是怎么样的,他们的评论是不是会有所不同。
3统计方法的选择与结论的输出
因为平台数据量较大,在拆分为出版、原创男频、原创女频之后,颗粒度依旧太粗,会导致结论不分明。因此我们考虑进一步按照产品现有维度细分:
筛选每个版块的大师评论,也就是精华评论,即点赞数最多、展示于评论区最前列的评论。它最能代表读者心理认同的内容;同时大师评论越多,体现版块越活跃,评论区质量越高。
筛选每个版块的五星级评论,集中体现读者关于书籍好的反馈;筛选每个版块中三星及以下评论,集中体现读者关于书籍不太好的反馈。
在方法上,我们首先利用词频来展现每个版块下不同维度评论里包含的词语的出现次数,在剔除无意义的高频连接词之后,对文本进行了语义网络分析。
(戳大图阅读更清晰)
在这个过程中,我们发现了一些有意思的结论。举例来说,大师评论,除了包含对书的理解与本身故事情节、人物塑造的深度评价外,更多的是对人生与社会两大主题的思考,比如生命、爱情、岁月、内心,比如国家发展、经济、市场、企业发展等。这一方面体现了读者内心的诉求与关注点,另一方面也向我们展示了受欢迎的书籍的题材内容与标准。原创男频和原创女频也呈现出一些截然不同的特点:女频读者更喜欢古装、穿越、言情和校园的题材,也更关注电视剧、韩剧,因此评论中这些字眼出现在五星级评论中的概率也更高;而男频读者则非常反感出轨、奸夫、离婚的题材与内容,这些字眼是三星及以下的高频闪现词。此外,我们在三星及以下评论中还发现,读者除了反馈内容本身的问题,比如错别字、翻译不好、文笔差、烂尾等,还会反馈平台和功能上的一些问题,比如章节付费、排版、图片不清晰等。
最后,我们利用词云对每个版块和分析维度下出现的频率较高的“关键词”进行视觉上的凸显,突出了我们的主要结论。
针对词频统计以及语义网络分析的结论,一方面,用户的评论反馈验证了产品目前版本在一些功能模块上存在的不足,为产品提出了改进和优化的方向;另一方面,从用户的评论中也可以挖掘出读者对作品最重视的几个关键指标维度,对产品重新设计评论区的标签与评分体系提出了建议;同时也为产品如何引导与改善用户书评,以营造更好的移动阅读社区氛围提供了思路。
综上所述,评论区研究虽然是一个以文本内容分析为主的研究,但是在数据量庞大的情况下,我们不能忽略掉量化处理和反馈结果的客观性与准确性。这也正是词频、词云、语义网络相对人工/客服统计结果更加明晰,更能从整体上反映问题与主题联系的优势所在。
相关阅读
一、决策树决策树– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法– 每个分支要么是一个新的决策节点,要么是树的叶
关键词的重要性在做网络推广的过程中,很多场合都需要用关键词。一个词的好坏将直接影响最后的流量效果。和词语最相关的推广方法有
剖析同类网站网站关键词的开掘方法许多,傍边开掘同类网站关键词的方法,无论是在拟定关键词计划仍然在后边的实质优化操作中都是一个
过去PC机上播放声音和音乐比登天还难!然而,随着DirectSound和DirectMusic的出现,这一切变得相当容易了。本文根据《Windows游戏编程
网站优化的重点通常会放在核心关键词上,但这类词毕竟有限,优化难度也大,如果能挖掘出大量长尾词,其带来的流量不会比核心关键词少。那