「个性化推荐」老板说“我们要做个性化推荐”时，你该怎么办......

个性化推荐

基于内容的推荐算法

现在，你的内容产品顺利度过了早期阶段，拥有了几万甚至十几万级别的日活。这时候，你发现热度算法导致用户的阅读内容过于集中，而个性化和长尾化的内容却鲜有人看，看来是时候开展个性化推荐，让用户不仅能读到大家都喜欢的内容，也能读到只有自己感兴趣的内容。

个性化推荐一般有两种通用的解决方案，一是基于内容的相关推荐，二是基于用户的协同过滤。

由于基于用户的协同过滤对用户规模有较高要求，因此更多使用基于内容的相关推荐来切入。

这里引入一个概念叫“新闻特征向量”来标识新闻的属性，以及用来对比新闻之间的相似度。我们把新闻看作是所有关键词（标签）的合集，理论上，如果两个新闻的关键词越类似，那两个新闻是相关内容的可能性更高。

新闻特征向量是由新闻包含的所有关键词决定的。得到新闻特征向量的第一步，是要对新闻内容进行到关键词级别的拆分。

1、分词

分词需要有两个库，即正常的词库和停用词库。正常词库类似于一本词典，是把内容拆解为词语的标准；停用词库则是在分词过程中需要首先弃掉的内容。

停用词主要是没有实际含义的，例如“The”,“That”，“are”之类的助词；表达两个词直接关系的，例如“behind”，“under”之类的介词，以及很多常用的高频但没有偏向性的动词，例如“think”“give”之类。显而易见，这些词语对于分词没有任何作用，因此在分词前，先把这些内容剔除。

剩下对的内容则使用标准词库进行拆词，拆词方法包含正向匹配拆分，逆向匹配拆分，最少切分等常用算法，这里不做展开。

因为网络世界热词频出，标准词库和停用词库也需要不断更新和维护，例如“蓝瘦香菇”，“套路满满”之类的词语，可能对最终的效果会产生影响，如果不及时更新到词库里，算法就会“一脸懵逼”了。

因此，推荐在网上查找或购买那些能随时更新的词库，各种语种都有。

2、关键词指标

前面已经说过，新闻特征向量是该新闻的关键词合集，那关键词的重合度就是非常重要的衡量指标了。

那么问题来了，如果两条新闻的关键词重合度达到80%，是否说明两条新闻有80%的相关性呢？

其实不是，举个例子：

（1）一条“广州摩拜单车投放量激增”的新闻，主要讲摩拜单车的投放情况，这篇新闻里“摩拜单车”是一个非常高频的词汇，新闻在结尾有一句“最近广州天气不错，大家可以骑单车出去散心”。因此“广州天气”这个关键词也被收录进了特征向量。

（2）另外一条新闻“广州回南天即将结束，天气持续好转”，这篇新闻结尾有一句“天气好转，大家可以骑个摩拜单车出门溜溜啦”，新闻里面“广州天气”是非常高频的词汇，“摩拜单车”尽管被收录，但只出现了一次。

这两个新闻的关键词虽然类似，讲的却是完全不同的内容，相关性很弱。如果只是看关键词重合度，出现错误判断的可能性就很高；所以特征向量还需要有第二个关键词的指标，叫新闻内频率，称之为TF（Term Frequency），衡量每个关键词在新闻里面是否高频。

那么问题来了，如果两条新闻的关键词重合度高，新闻中关键词的频率也相差无几，是否说明相关性很强呢？

理论上是的，但又存在另外一种情况：如果我们新闻库里所有的新闻都是讲广州的，广州天气，广州交通，广州经济，广州体育等，他们都是讲广州相关的情况，关键词都包含广州，天河，越秀，海珠（广州各区）等，并且有着类似的频率，因此算法很容易将它们判断为强相关新闻。

从地域角度讲，这种相关性确实很强，但从内容类别层面，其实没有太多相关性，如果我是一个体育迷，你给我推荐天气，交通之类的内容，就没多大意义了。

因此引入第三个关键词的指标，即关键词在在所有文档中出现的频率的相反值，称之为IDF（Inverse Document Frequency）。

为什么会是相反值？因为一个关键词在某条新闻出现的频率最大，在所有文档中出现的频率越小，该关键词对这条新闻的特征标识作用越大。

这样每个关键词对新闻的作用就能被衡量出来即TFIDF=TF * IDF，这也就是著名的TF-IDF模型。

3、相关性算法

做完分词和关键词指标后，每一篇新闻的特征就能用关键词的集合来标识了：

其中word0，1，2……n是新闻的所有关键词，tfidf0，1，2……n则是每个关键词的tfidf值。

两个新闻的相似度就能通过重合的关键词的tfidf值来衡量了。根据之前所学的知识，几何中夹角余弦可以用来衡量两个向量的方向的差异性，因此在我们的算法中使用夹角余弦来计算新闻关键词的相似度。夹角越小，相似度越高。

有了关键词和各关键词的tfidf之后，就可以计算新闻的相似度了。假设两条新闻的特征列表如下：

可以看到两条新闻有 5 个重合的关键词：广州，摩拜单车，太阳，天河和市长，因此两条新闻的相关性由这 5 个关键词决定，计算方式如下：

得出两条新闻的相关性最终值；用同样的方法能得出一条新闻与新闻库里面所有内容的相关性。

4、用户特征

得到新闻特征以后，还需要得到用户特征才能对两者进行匹配和推荐，那怎么获得用户特征呢？

需要通过用户的行为来获得，用户通过阅读，点赞，评论，分享来表达自己对新闻内容的喜爱；跟热度排名类似，我们对用户的各种行为赋予一定的“喜爱分”，例如阅读 1 分，点赞 2 分，评论 5 分等，这样新闻特征跟用户行为结合后，就能得到用户的特征分。

而随着用户阅读的新闻数越来越多，该用户的标签也越来越多，并且越发精准。

从而当我们拿到新闻的特征后，就能与用户的关键词列表做匹配，得出新闻与用户阅读特征的匹配度，做出个性化推荐。

5、其他运用

除了个性化推荐，基于内容的相关性算法能精准地给出一篇新闻的相关推荐列表，对相关阅读的实现非常有意义。此外，标签系统对新闻分类的实现和提升准确性，也有重要的意义。

6、优缺点

基于内容的推荐算法有几个明显优点：

对用户数量没有要求，无论日活几千或是几百万，均可以采用；因此个性化推荐早期一般采用这种方式。

每个用户的特征都是由自己的行为来决定的，是独立存在的，不会有互相干扰，因此恶意刷阅读等新闻不会影响到推荐算法。

而最主要的缺点就是确定性太强了，所有推荐的内容都是由用户的阅读历史决定，所以没办法挖掘用户的潜在兴趣；也就是由于这一点，基于内容的推荐一般与其他推荐算法同时存在。

老板说“我们要做个性化推荐”时，你该怎么办......

个性化推荐

相关阅读

栏目导航

推荐阅读

热门阅读