netflix
从《纸牌屋》开始,Netflix越来越多地进入国人的视线中。关于它的用户推荐系统、“大数据分析”等等神话和传说也有不少,本文是我在查找了一些资料后,整理出来的Netflix的推荐思路和一些方法。太过技术的算法内容实在是hold不住,因此仅从逻辑上进行说明。一来整理自己的思路,二来尽可能学习些东西,分享出来欢迎各位讨论。
一、坐等风来
回顾历史,Netflix是一家典型的提前布局等风来的公司。
1997年8月,在DVD机仅推出几个月后,Reed Hasting和Marc Randolph创立了Netflix,并在1998年3月上线了全球第一家线上DVD租赁商店。以仅30名雇员拿下了925部电影,这几乎是当时所有的DVD电影存量。
1999年他们推出了全新的按月订阅的模式,用户第一次有机会享受到没有过期罚款、没有运费、手续费等等一系列烦人的东西的服务。相比Netflix之前使用的单部电影租赁的方式,新模式对用户更加友好,于是Netflix凭借着这个模式迅速在行业里建立起了口碑,老旧的单部影片租赁模式也于2000年寿终正寝。
随后的2001年,由于DVD机售价越来越低,成为当年圣诞节成为最受欢迎的礼物之一,Netflix也在2002年坐上了这趟快车,用户量得到了巨幅增长。这是Netflix创立四年迎来的第一个风口,现在看来不得不感叹其眼光之独到。
2005年,他们发现尽管没有高清内容,但Youtube的流媒体服务(可简单理解为在线播放)仍然十分受欢迎,于是放弃了自己的硬件产品Netflix Box转入其中,于2007年上线了流媒体服务。而随着日后网络带宽的提升和费用的降低,占据了先发优势的Netflix又一次收获了巨大增长。
2006年,一项名为Netflix Prize的算法大赛横空出世,Netflix拿出100万美元奖金让开发者们为他们的优化电影推荐算法。截至2012年第四季度,Netflix已在全球拥有2940万订阅用户。
2012年,Netflix开始尝试自制内容,并于2013年推出《纸牌屋》,高超的内容质量和一次放出整季内容的发行方式,让它瞬间风靡全球。
今年4月,Netflix的全球订阅用户达到1.25亿,服务超过190个国家和地区。截至今日,它的市值超越迪士尼成为全球互联网企业排名第六的公司。
回顾Netflix这21年的历史,似乎每一次转型的时机和方向都是如此准确,以至于有些“自然而然”地达成今天的高度。然而如果我们透过现象看本质,从万变中找不变的话,有一件事一定会被提到——个性化推荐。甚至可以说,“个性化推荐”就像Netflix自制的鼓风机,第三个风口是他们自己造出来的。
没有明确的资料说明Netflix在做邮寄租赁DVD的时候有没有推荐机制。但他们确实从最开始的时候,就十分重视数据,并开始收集用户数据了:他们会在邮寄的信封里附上问卷让用户给电影打分。这些打分数据是之后Netflix推荐系统的重要基石之一。
“个性化推荐”一直都是Netflix的杀手锏,数据积累和算法研发的提前让它在这方面几乎是不可被超越的,时至今日用户在Netflix上观看的80%内容都是由推荐而来的。
二、解构好莱坞
Netflix的推荐系统之所以能够如此高效地达成目标,我认为最大的理由是他们教会了“让机器懂电影”。在一篇名叫<How Netflix Reverse Engineerd Hollywood>的文章中(由Alexis C. Madrigal于2014年发表)。作者从Netflix的推荐分类出发,解说了他们是如何解构好莱坞进而去给用户做推荐系统的。
在Netflix的首页中你会看到一行一行的电影,每一行是一个分类,官方叫它altgenre,或者说“微分类”,每个分类中是一系列的电影。这些分类和电影都是为你量身推荐的。
在这些分类中有一些非常精准、十分有意思的标题:情感充沛的反体制纪录片(Emotional Fight-the-System Documentaries)、基于事实的皇室掠影(Period Pieces About Royalty based on Real Life)、80年代的外国邪恶电影(Foreign Satanic Stories from the 1980s)。
那么这些类型是怎么来的呢,作者Alexis做了一件很绝的事情:
他把Netflix的所有分类全爬了下来,共有76897个分类之多。并且将这些分类的用词和语法做了深入分析,还自己开发了一个“类型生成器”,生成出了和Netflix类似的结果。他甚至给出了公式:地区+形容词+类型+故事基础+拍摄地+时代+关于(什么的内容)+适合年龄段(Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y)。
但看到这里,我们只是看到了Netflix解构好莱坞的结果,那么这一切是从哪里开始的呢?
2006年,Netflix产品副总裁Todd Yellin带领一票工程师用数月时间写了一份长达24页的名为《Netflix量子论》(Netflix Quantum Theory)的文档。专门讲述如何用“微标签”(microtag)拆解电影。
这份文档的目的是作为训练手册,让不同的人对微标签有同样的理解,以保证能够系统性地、标准统一地解构上千部电影。如今这份手册已经扩展到了36页。
这份36页的训练手册讲述了如何给一部影片的性暗示内容、血腥程度、浪漫等级、甚至情节总结等元素评级。文档还解释了如何给影片结局打标签、给主要演员的“社会接受度”打标签、给每部影片的浪漫程度打标签,更重要的是,每个标签都有从1到5的评级。
以《超胆侠》电影为例,标签会包括“四个主要角色”,至于其中Matt Murdock这个角色,会有演员名、角色名、他很“英雄”(heroic)、是个律师等等。
Netflix就是用这样的方式,解构了几乎所有的电影,用精细、准确的微标签和评级教会推荐系统去认识电影、解读电影。
更令人称道的是,给Netflix打标签真的是一份工作。Netflix组建了一只团队,付钱让他们看电影同时给这些电影打上标签。有好事的媒体采访到了一位“标签员”(tagger),让他讲述给Netflix打标签是一种什么样的体验,十分有意思。
三、解构用户
2012年前后,Netflix的推荐系统经历了一次重大的策略变化,官方技术博客以名为<Netflix Recommendations: Beyond the 5 stars>的文章(分为1、2两部分)阐述了这种变化的前因后果:
在邮寄租赁DVD的时代,Netflix能够获得用户的评分,但是用户观看电影的过程对平台是隐形的。但是随着流媒体业务的开展,Netflix终于有机会看到用户的更多方面。于是他们认识到:
“Everything is a Recommendation.”——一切都是推荐。
由这一想法催生出的,是更加细致、深入的用户推荐。
Netflix的官方文档中把自己称为“幸运”,因为他们有大量的相关数据和能够把这些数据应用到产品中的人才。
以下是Netflix用来优化推荐系统的数据源:
数以百万计的用户评分数据(tagins),而且每天还在以百万量级增长;
作为算法基准线的项目热度(item popularity);
包含时长、时间、设备类型的数百万播放数据(stream plays);
用户每天会想自己的列表(queue)中添加数百万项目;
每个项目下丰富的元数据(metadata);
每个项目的展示位置(presentation)和效果;
百万级的用户搜索数据(search terms);
来自外部(external data)的票房或影评数据;
当然,实际上用到的数据还远不止这些。
除了和影片相关的数据外,用户数据是Netflix推荐系统的另一重要基石。
转型流媒体后,用户的所有行为全部在平台内完成,这给了Netflix观察用户的绝佳环境,他们不仅仅知道用户看过什么,甚至知道他们是怎么看的:什么时候看的,看了多长时间,在哪里暂停,在哪里反复,在哪里关闭等等,这些行为数据无一不是用户喜好的体现。
通过分析这些行为数据,和解构好莱坞得来的影片数据进行匹配,让Netflix的推荐精度越发准确。
四、推荐新姿势:个性化海报推荐
去年Netflix推出了一项新的推荐功能:个性化海报推荐,具体来说就是“不同的用户看到的同一个电影的推荐海报是不一样的”。如果你喜欢动作戏,则可能你看到的海报是片中的打斗场面,如果你喜欢片中某个主演,那么你看到的是以他为主角的海报。
这一功能的源头同样是对电影内容和用户喜好的解读。认为地去创造更多的“一见钟情”,进一步提高了推荐系统的效率。
五、Netflix的自省
1.从官方文档透露中的信息来看,长久以来Netflix虽然对算法十分依赖,但也意识到它的不足,这种不足可能是所有的算法都躲不开的——“越推荐越相似”。因此Netflix的算法中十分关注“不同”(adversity)。新奇、多样性、新鲜度,都是推荐中考虑的因素。
尽力帮用户去“发现”兴趣,这也是Netflix的推荐目标之一。
2.关于前边提到的个性化海报推荐,官方特别地说明了对它的担忧:不希望它变成“骗”用户看电影的功能,也就是说要尽力把这个功能控制在一个度里,说白了就是不“标题党”,为了让用户去看某个电影而强行用海报勾引他。
六、后记
就在我写这篇文章的前几天,Netflix又做出了两个重要改变:1. 把五星评价系统改为“喜欢/不喜欢”的评价系统;2. 取消了影片下的评论功能。
关于这两个改变网上有些解读,但我还没想清楚,就不追这个热点了。
关于Netflix可说的还有很多,最近他们还推出了另一个官方博客:Netflix Research,加上原有的the Netflix Tech Blog,有兴趣的各位可以关注一下。
参考资料:
<Netflix Recommendations: Beyond the 5 stars (Part 1)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429
<Netflix Recommendations: Beyond the 5 stars (Part 2)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5
< How Netflix Reverse Engineered Hollywood>:https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
<Netflix tagging: Yes, it’s a real job>:https://www.washingtonpost.com/news/arts-and-entertainment/wp/2015/06/11/netflix-tagging-yes-its-a-real-job/?noredirect=on&utm_term=.51f470d15c18
相关阅读
从目前知识类竞答产品看,依旧是烧钱游戏。配图:《贫民窟的百万富翁》要说最近一周最火的应用是什么?非「知识竞答」莫属。当大家还沉
王者荣耀裴擒虎高胜率攻略分享,不少玩家对于裴擒虎还不太了解,导致胜率不高。下面小编就为玩家们带来王者荣耀裴擒虎出装推荐及玩法
9月7日,海信电视发布了自己智能电视用户的全球数据,目前总用户量达到2100万,日活943万,从用户量级的层面,再次坐实了国内智能电视老大
【Martin导读】随着互联网特别是社会化网络的快速发展,我们正处于信息过载的时代。用户面对过量的信息很难找到自己真正感兴趣的内
相信有不少的王者荣耀玩家们肯定想要搞清楚S11赛季奖励皮肤图片是怎么样的吧?毕竟能够提前一饱眼福确实不错,因此下面就来为各位介