算法
信息过度和广告过多的社会中,推荐算法的使用也就显得理所当然。
推荐算法背景
在商品短缺,信息缺失和广告缺乏的时代,人类社会面临着无可奈何的选择不足困境;而在商品过剩,信息过度和广告过多的社会中,人类社会又面临着史无前例的选择过多困境甚至于因为选择过多而产生无从选择的尴尬情景。
在这两种截然不同的社会经济环境中,个体所采取或者说所应对的策略,前一种侧重于自觉地主动搜寻个体需求之物,后一种侧重于不自觉地被动接受社会提供之物。
体现在现实的经济社会中,就是我们现在不仅通过搜索引擎主动地查询搜索购买商品,查询收集浏览新闻信息和广告资讯;而且我们更是被动地接受了由机器深度学习进行系统自动化推荐算法所计算出来的,为个体量身定做而提供的各种推荐商品,信息和广告等个性化服务。
当然,也正如同古希腊大哲学家苏格拉底所说的那样,人最难认识的是自己,有时用户很难用恰当的关键词语来描述自己的需求和想法,又或是无法对自己未知而又可能感兴趣的信息做出描述而显得无所适从或者说无可选择。因此,通过机器算法的推荐系统能得到进一步的发展和应用就成为顺理成章的事情了。
虽然这种基于机器各种算法而产生的商品、信息和广告推荐成为各大互联网服务平台的标配,尤其是通过主打算法的个性化推荐类新闻app在近一两年的崛起和称霸,更是成为中国互联网界有目共睹的辉煌成就。
但隐藏在这些热闹表象身后所体现出来的实质上更多地是社会科学技术发展到一定程度所必然出现的结果,即AI技术中有关深度学习技术手段在历史上几次起起落落后应用于推荐系统中的重新崛起和发展。因此,近几年推荐系统的风生水起,与其说是互联网界的成就,不如说是中国科技界,尤其是AI技术的进步。
很明显,深度学习是AI体系中技术层面上的一种运算方法和手段,而推荐系统则是深度学习在具体细分领域的一种技术层面应用,它的重新崛起是社会发展到一定阶段后,人类所形成新的需求矛盾与科技进步发展所形成新的生产力相互结合的必然结果。
它与各种互联网服务平台结合而成的实际应用就是我们现在的个性化推荐商品(电商),新闻(资讯分发),广告以及其他各种个性化服务平台,如下图。
推荐算法历史与种类
实际上,推荐这二个字对我们来说并不陌生,遍布于生活、工作、学习等各个方面,如学习中的三好生推荐,高考中的保送生推荐;工作中的优秀员工推荐,选举时的候选人推荐;生活中的超市购物店长推荐,畅品推荐等等。
而从其纵向的发展历史来看,我们也经历了从毛遂自荐,口碑相传的个体推荐形式,逐步过渡到1/2或者2/3简单多数规则的群体推荐形式,以及进一步转化到涉及各种权重、混合、360度全方位等复杂规则的群体推荐形式。
然而,不管是个体自荐和推荐,还是群体推荐;抑或不论是简单多数规则,还是复杂规则;本质上都属于一种人为推荐形式。而人为推荐则必然不同程度地存在着诸多如暗箱操作、感情用事、趋利避害、标准不一的主观性意见缺陷,导致难以得到客观化的满意结果。
为使推荐的结果更加合乎实际和更加客观化,通过计算机采取一定技术方法的算法推荐系统就应运产生了。与人为推荐系统的发展历程一样,早期计算机推荐系统中的算法和技术也是十分简单和粗糙的,如打分预测,即通过用户(User)对物品(Item)的打分(Rating)进行评分预测推荐;或相似评估,即通过对用户和物品一些较为粗糙简单的明显属性进行分析评判推荐。
只是在进入互联网时代后,随着云计算和大数据分析等技术的发展,在运算和存储能力跃入新的层级之后,推荐算法不仅在数量的广度上,而且在技术的深度上都达到了前所未有的一个水平。
目前各种具体推荐算法很多,而且分类标准也不尽相同,但万变不离其宗,由于推荐系统本质是向用户推荐合适物品的个性化服务,主要涉及到用户和物品二个对象。因此,从大的方向来看,可以划分为基于用户的“人以群分”推荐算法和基于物品的“物以类聚 ”推荐算法,简述如下:
1、以人为中心的“人以群分”推荐算法
这种推荐系统的内在原理有一个假设前提,即相同群体中的成员拥有共同的兴趣爱好,因此同类人喜欢什么就推荐什么。很明显在这种推荐系统中,关键点是如何全面准确地划定人“群”的属性,即“群”的相似度和近似度对个体的影响力权重程度。一般地,最常见的是基于人口统计学中个体自然的基本属性而推荐。
因此,根据个体的基本属性在理论上就会出现很多推荐子系统,如基于性别的,基于年龄的,基于学历的,基于地域的等等推荐系统,这里的关于人的推荐系统是平行关系的,与下面的物品推荐系统层级关系有所不同。当然在实际经济中,并不是所有的推荐系统都是有用或者说有效的,因此就必须根据个体和物品进行有目的的筛选淘汰了。
栗子:基于年龄的推荐系统
这里的“群”就是年龄,而且假设年龄对物品和用户的影响力权重占第一位。推荐原理如下:
第一步:机器通过大数据以“年龄”为关键属性搜寻找到各个用户之间的相似度和邻近度。
第二步:对不同用户A,B,C的相似度进行排序。
第三步:选出与当前用户A最相近的用户C。
第四步:将用户A喜欢的物品a推荐给没有接触过的用户C。
这是较为通俗易懂的基于用户简单推荐方式,当然在实际经济生活中,“群”属性确定,推荐方式和具体运算过程则要复杂得多,但基本原理相似。
2、以物为中心的“物以类聚”推荐算法
与“人以群分”的推荐方式相类似,它是以物品的相似度代替了用户的相似度。这种推荐系统也有一个假设前提,即同一用户对相同类型的物品具有共同的兴趣爱好或者说吸引力,因此用户喜欢什么就推荐相同类型的物品。一样的道理,在这种推荐系统中,关键点是如何全面准确地划定物品的“类”的属性,即物品的“类”属性相似度和近似度对个体的影响力权重程度。
与“人以群分”推荐算法中“群”的各个属性划分是基于横向平行关系不同,在“物以类聚”推荐算法中物品的“类”是基于纵向层级关系而划定。而且由于大千世界各种物品成千上万,因此首先必须确定一个物品分门别类的划分标准,或者说确定一个比较合适的划分标准就显得十分重要。
物品具有自然属性和商品属性,因此可以按生物标准进行自然属性分类,也可以按经济属性进行商品属性分类;但由于我们都处于经济社会中,因此一般地,我们将物品的类别划分确定为以商品经济属性为主,兼顾生物自然属性进行划分。第一层先划分为有形产品和无形服务;第二层再根据惯例按国民经济行业有关第一产业、第二产业、第三产业进行行业分类。然后每一层按照从大到小,结合物品的品类、品种等自然生物属性和功能、用途、产地等商品属性逐层进行细分,直至分解到最后的最底层每一个单品sku。
相应地,根据物品类别在理论上也存在着很多推荐系统,对于有形产品来说,有基于价格的,基于用途的,基于产地的;对于无形服务来说,有基于年代的,基于等级的,基于提供者的等等细分推荐系统。当然也要根据需要进行筛选。
栗子:基于产地的物品推荐系统
这里的“类”就是产地,而且假设产地对用户的影响力权重占第一位。推荐原理如下:
第一步:机器通过大数据以“产地”为关键属性搜寻找到各个物品之间的相似度和邻近度。
第二步:对不同物品a,b,c的相似度进行排序。
第三步:选出与当前物品a最相近的物品c。
第四步:将物品c推荐给没有接触过的用户A。
以上介绍的二种方法是推荐领域最基本的,也是最简单的的方法。但在实际的经济生活中和现实的真实案例推荐中,往往不是那么简单,需要面临着许多复杂多变的情景和任务,因此,在这二种基本推荐基础上的各种混合推荐系统就应运而生了。主要有
3、基于协同过滤推荐系统:这又分为基于用户协同过滤和基于物品协同过滤二种推荐方法
基于用户的协同过滤推荐方法原理与基于以人为中心的“人以群分”推荐算法相同,都是通过计算用户的相似度,利用相似,邻近和邻居进行计算推荐;它们的区别是如何计算用户的相似度,基 于以人为中心的“人以群分”推荐算法只考虑个体用户本身的基本特征,而基于用户的协同过滤机制则是在用户的历史偏好数据上计算用户的相似,即考虑用户的历史行为特征。
同样,基于物品的协同过滤方法与基于以物为中心的“物以类聚”推荐算法工作原理相似,都是基于物品相似度预测推荐;它们的区别也是物品相似度计算的方法不一样,前者是从用户历史的偏好推断,即物品有关的购买,收藏,评论,点赞等信息,而后者是基于物品本身的基本属性信息。
4、基于关联规则的推荐:就是找不同商品之间的相关性,假设用户喜欢A,A和B有紧密联系,就推荐B。主要指一些互补关系的产品,如香烟与打火机,复印机和色粉盒,也指一些在用途、渠道、购买者等方面相同的一些产品,如奶粉与尿不湿购买者可能为同一人,买了面包的人可能会买牛奶,零食与饮料可互补,海边的五金小店售卖啤酒等等。
5、基于背景的推荐:即找寻发现物品的行业特征以及物品在购买场景、展示场景和使用场景时的一些规律进行合适的推荐,如展示场景推荐系统就是表示如何将推荐产品合理地展示在电商页面的各个部分,以及明确各个部分的大小,顺序,色彩,主次等属性,从而达到重点区域突出,个性化推荐加强,进而提高销量的结果。
还有一些推荐算法,如标签的流行度推荐算法,基于效用的推荐,基于知识的推荐,组合推荐,加权推荐系统,模型推荐等;现归纳如图。
推荐算法应用:精打细算才是出路
理论的最终目的是为了应用,是为了更好地指导我们的实践。因此,各种推荐算法在实际经济生活中的运用才是我们所需要考虑的核心问题。算法无好坏,适合是王道。
由于每个推荐算法都不是完美的,都有着不同程度的各自优缺点;因此理想的状态是使用所有推荐算法,取长补短,通过给不同算法的结果加权,从而达到完美的结果。但在实际应用中,基于企业的技术能力,成本压力和时间约束等因素,较为实际的步骤是:
根据所处行业,企业主要产品和主流用户的属性,确定以一个推荐算法为主计算结果,其他1-2个算法为辅论证和调整结果的混合推荐算法系统。
具体计算时,兼顾技术上的可能性,经济上的可行性和时间上的可控性三原则,实现推荐算法在技术、经济和效率的有机结合。
时空因素的影响:包括时间上有明显淡旺季区别的企业,有某些特定大事影响原有业务和产品运作方式的,如图原先体育栏目中,按项目、国别、球队、球员等维度逐层进行计算,然而在奥运会或者世界杯时期,可能在体育栏目中,就要变成奥运会、国家、运动员这几个维度进行计算了;空间上如交通企业,地域性明显的o2o、风景区和旅行社等。
4.不断迭代调整,提高计算准确率,实现更切合实际和满意的结果。
那么,在电商行业、资讯信息广告行业和各种交互服务行业应用时,如何实现推荐算法的精打细算呢?具体的做法是:
电商行业:按大众化和小众化商品划分
对于那些大众化,老小皆宜的消费品,尤其是快消品,宜采用基于用户为中心的“人以群分”的User RS 推荐算法,强调用户存在的买点和痛点,兼顾企业的优点和竞争点,也适合于那些选购性的耐用物品。
对于小众化,专业性强,特定品,以及工业品等物品,则应采用基于物品为中心的“物以类聚”的Item RS 推荐算法,强调物品自身的新奇特优等卖点,兼顾企业的优点和竞争点;从而进行精准化推荐,也适合于一些长尾物品以及没有用户画像的新产品冷启动情景。
资讯信息广告行业:按社会化和专业化划分
对于以娱乐消遣休闲为目的社会化新闻和一些常识谈资分享类信息,侧重于User RS推荐算法。
以科技类,冷知识等专业知识,提高生活、学习和工作水平和能力为目的,侧重于Item RS推荐算法。
至于如何对互联网中其他各种交互服务(包括无形服务)的平台,进行推荐算法的精打细算,可能会在《推荐算法:why比how和what更重要》中进行思考。
题图来自 Unsplash ,基于 CC0 协议
相关阅读
人脸识别主要算法原理 主流的人脸识别技术基本上可以归结为三类,即:基于几何特征的方法、基于模板的方法和基于模型的方法。 基于
把同样公平的机会放在放在很多人面前,不同的人生算法,会得到迥然不同的结果。罗胖在刚刚结束的“时间的朋友”跨年演讲中讲到一个概
很多公司市场部的人,每天忙着推广各种活动,忙着抓热点,甚至忙着做挂历,却忘记去真正了解市场营销的最基础定义:什么才叫一个市场。有时
哈夫曼树 哈夫曼树, 即带权路径最小的树, 权值最小的结点远离根结点, 权值越大的结点越靠近根结点图解图(3)即为哈夫曼树哈夫曼编
转载:http://blog.csdn.net/u012160689/article/details/15341303 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值