智能推荐
- 推荐系统的基本概念
在信息过载的时代,推荐系统的任务就是联系用户和信息,帮助用户发现对自己有价值的信息,同时让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。
推荐系统的运用领域有:电影和视屏推荐、个性化音乐推荐、图书推荐、电子商务、邮件、位置、广告、社交等。
- 推荐系统的评测
什么才是好的推荐系统?
完整的推荐系统包含用户、物品的提供者、提供推荐系统的网站。
评测推荐效果的方法:
离线实验、用户调查、在线测评(AB测试)。AB测试的优点是可以公平获得不同算法实际在线时的性能指标,包括商业上关注的指标;缺点就是周期比较长。
评测指标:1、用户满意度(通过在线实验-统计和用户调查获得),在线实验还可以通过CTR、用户停留时间和转化率等指标来度量用户的满意度;2、预测准确度(是一种预测用户行为的能力,对离线实验很重要的指标),包括评分预测(如果知道用户对物品的历史评分,就可以从中习得用户的兴趣模型,并预测该用户在将来看到一个他没有评过分的物品时,会给这个物品评多少分)、TopN推荐、(通过 准确率/召回率 来度量);3覆盖率(描述一个推荐系统对物品长尾的挖掘能力,推荐的物品占总物品的概率,信息熵和基尼指数);4多样性(推荐列表中两两物品间的不相似性);5新颖性(给用户推荐那些以前他们没听说过的物品,简单方法:把用户以前在网站中对其有过行为的物品从推荐列表中过滤掉);6惊喜度、7信任度(提高方法:1、增加推荐系统的透明度,2、提供推荐解释)、8实时性;9、健壮性;10、商业目标
- 评测维度
用户维度、物品维度、时间维度。
- 利用用户行为数据
实现个性化的推荐的理想状态是用户在注册的时候主动告诉我们他喜欢什么,但这种模式存在问题:
- 自然语言理解技术很难理解用户用来描述兴趣的自然语言;
- 用户的兴趣是不断变化的,但用户不会不停的更新兴趣的描述;
- 很多时候用户并不知道自己喜欢什么,或者很难用语言来描述自己的兴趣。
用户行为日志,不同的网站要根据自己的特点来设计评分系统
显性反馈行为:用户的评价
隐形反馈行为:用户的观看、浏览、购买日志等。
用户活跃度和物品流行度的分析:用户越活跃,越倾向于浏览冷门的物品。新用户倾向于浏览首页的热门物品。
一、基于领域的算法
1、基于用户的协同过滤推荐算法
步骤:
-
- 找到和目标用户兴趣相似的用户集合
- 找到这个集合中用户喜欢的,且目标用户没有听过的物品推荐给目标用户
其中,N(u)为用户u曾经有过正反馈的集合,N(v)为用户v曾经有过正反馈的集合。
注意:在求相似度时的小 trick。用余弦相似度计算相似度时,时间复杂度较高,这在用户很大时非常耗时。很多时候用户和用户之间没有产生过行为,所以可以先建立倒排表,对每个物品都保存对其产生过行为的用户列表。
2、基于物品的协同过滤推荐算法(ItemsCF)
思路:并不利用物品的内容属性计算物品间的相似度,而是通过分析用户的行为记录计算物品之间的相似度。
步骤:
-
- 计算物品之间的相似度
- 根据物品的相似度和用户的历史行为给用户生成推荐列表(Customer Who Bought This Item Also Bought)
计算相似度:
避免推荐出热门的物品
相关阅读
《北方人的巴赫》里有一个爱乐者的故事。罗伯特,一个常居阿拉斯加的男人。为了巴赫,不做白领而去做了管道工。就为了冬天来临的时候
大部分人都听说过个性化推荐,也知道千人千面,那么个性化推荐系统到底是怎么样的?最近做了一点总结。现在的人们面对信息过载问题日益
应广大朋友的要求,本人对本篇文章进行一次更新,将推荐系统的底层逻辑和部分算法模型进行整合归纳,由于内容篇幅较长,分为上下两篇,请分
推荐系统是一个策略行为,本文将用两张图,来带你看懂今日头条的推荐系统。推荐系统的“前身”2016年,腾讯以80亿美元估值投资今日头条
推荐系统评测指标—准确率(Precision)、召回率(Recall
主要参考:http://blog.csdn.net/mousever/article/details/48622163 前言: 一直搞不懂mAP,AUC曲线,ROC区域,这里做一下总结 AP用来做