推荐系统的典型推荐案例

  还依稀记得我小的时候,爸爸骑着自行车带我买东西,有时候在小店面,有时候去供销合作社,基本都是跟售货员说:我要一包火柴、3块肥皂、一瓶酱油等等,最多有的时候售货员会问你说要好的、一般的还是便宜的,形式有些像现在的普通药店形式;后来超市开始慢慢走入我们的生活,超市提供的选择和类型就开始多了,而且你还可以逛逛多家超市比较自己喜欢和便宜的,也不用觉得“问了人家或者人家推荐了,不买又不好意思”;现今随着互联网的浪潮,电商变的越来越流行,轰炸式的广告让农村五六十岁的大叔大妈都知道买东西可以找淘宝、京东,而淘宝、亚马逊这些电商的产品目录是绝大多数超大型超市也难以比拟的(当然这之中还有一个国内市场混乱、诚信缺失的因素,导致各类欺诈、假冒伪劣案例频发,所以现今越来越多的人买东西都会选择大型商家自营来挑选了)。
  其实,就是当今社会生产力的发展,导致各行各业的产品过载,越来越多的人患上了选择恐惧症:吃饭不知道吃啥,听歌不知道听啥,打开浏览器不知道干嘛……虽然我在先前的文章中告诫大家不要在浩繁的信息海洋中被淹没而让自己的大脑越来越慵懒,遇事要有自己的主见,选择自己的所需所爱,否则你的依赖性会越来越强,但如果对于一个数据挖掘工程师来说,这何尝又不是一个巨大的机遇呢?
  前段时间在搜索资料的时候,偶遇“推荐系统”这个话题,觉得还蛮有意思的。曾经Amazon的老大貌似说过要了解自己的每一个客户,亚马逊能称为全球最大的电商,跟其强大的推荐系统不无关系,不断作为推荐系统研究的经典案例,也为全球各大新兴电商尽相模仿。买了本《京东平台数据化运营》,说实话,这本书算是个京东商家后台操作手册,其中基本难寻技术干货,但同时也折射出电商对于数据化运营之重视。国内对于推荐系统的教材寥寥,项亮所著《推荐系统实践》算是写的比较早的,内容也还可以。刚看了前两章,其中所著推荐系统案例让我大开眼界、不愿独享,因此摘录下来推荐给大家。

  正如上文所说的,推荐系统主要是在当前信息和产品过载情况下最为有用,因为如果可供选择的类别的很少,用户完全可以按照自己的喜好、或者收集相关信息做出自己的选择。当前在电商、影视音乐、社交网络、阅读、广告等,算是推荐系统使用最为广泛的领域。

一、电商

  电商类的推荐,首推强大的亚马逊了,其讲求的是了解每个客户,针对客户个性化推荐。当打开自己的推荐列表的时候,不仅显示出推荐的内容、评分,还提供了与用户交互反馈式的方式:我拥有了、我不感兴趣、评分,甚至显示出给你推荐的理由,由此可见亚马逊推荐功能之强大,同时对自己的推荐系统之自信。当然我在亚马逊购物的东西还不多,亚马逊可用的信息应当包括购买记录、添加购物车历史、搜索历史、浏览历史等信息,甚至还包括你的购物趋势(Inspired by your shopping trends),当然还有那些Facebook等社交网络推荐、打包销售等还没能体会到。
  作为海淘一族,下面是Amazon针对自己的推荐信息:
Amazon推荐内容
  引用亚马逊CEO Jeff Bezos:

“We have 6.2 million customers, we should have 6.2 million stores. There should be the optimum store for each and every customer.”
  据称推荐系统给亚马逊贡献了20%~30%的收入,可见一个好的推荐系统比一般广告的收益率要高的多!
  国内的京东也在倡导数据化运营,为个人生成的购物基因还是蛮有意思的。
京东购物基因

二、影视

  影视方面Netflix的推荐被传为推荐经典,源于其用100W刀悬赏推荐算法,并为此开放了户行为数据集(40万用户对2万部电影的上亿条评分记录),虽然这个悬赏活动早就结束了,但是开放的数据集吸引了大量机器学习学者,方便了很多推荐算法用于训练和测试模型。
  这个网站在大陆居然可以访问,其原因是没有在大陆开展业务,所以出了个空壳你啥也看不到。YouTube的推荐还是可以体会到的,其根据用户的观看和Subscribe内容,为我推荐了大量生活大爆炸、袁腾飞等视频内容,当然还有很多不符合当地法律规定的内容。

三、音乐

  音乐电台在国内数豆瓣十分的流行,上班的时候可以戴上耳机,当然不会刻意去欣赏和品味某些音乐,只是当作背景音乐罢了。作者介绍了三个典型的音乐电台:Pandora、Last.fm和国内的豆瓣,Pandora基于一个音乐基因工程(Music Genome Project)的项目,针对海量的曲库,让音乐家和工程师对音乐的各种特性(包括旋律、风格、节奏等信息)进行手动标注,称之为音乐基因,然后对用户的收听历史进行基于相似度聚类推荐;Last.fm是基于用户的收听历史和评价反馈,然后对那些相似兴趣的用户歌曲集向目标用户推送不再收听列表中的歌曲,可见Last.fm是使用当前推荐系统最流行的基于用户协同过滤的推荐方法;豆瓣的信息比较的少,使用过程中一方面用户点击喜欢、垃圾桶进行当前曲目的反馈,同时可以收听指定类型频道的音乐电台。
  针对音乐推荐,或许可以考虑优化的因素还会很多,比如:音乐本身有频率、歌词等信息,可以考虑音乐本身属性的自动挖掘聚类;用户在工作、锻炼、休息的时候,心情和状态都不一样,最好能个性化推荐不同风格、节奏的曲目;用户注册的年龄、性别、学历、工作、地域等信息,对用户的品味影响比较大,对也是不错的参考源。

四、社交网络

  社交网络其实是个十分优质的数据源,因为他是个结构化的网络数据,可以不断地深层次挖掘,同时涉及到的内容也是丰富多彩而不会十分单一,可以从多个维度刻画目标用户的属性。
  国内的新浪微博,一打开就是铺天盖地的广告,用户烦了便纷纷投向微信盆友圈求安宁去了,作为传统内容门户网站的新浪没有这方面的基因,形式太过于简单粗鲁;百度贴吧每隔两三楼就插播一个广告,看的人也是醉了;优酷一分多种的视频广告超过30秒,热点视频甚至更久,所有视频的广告内容基本一样,尤其那种游戏类的广告声响大的要死,直逼用户的心理底线;各大门户网站就更不用说了,什么顶端、底端、侧面都布满了,还要给你来个浮动的,弹窗的。这些网络运营商,或许他们只管卖固定价格的广告位,于是拼命建立更多的广告区域,也没考虑过精细化广告运营和广告实际的转化率。
  这里倒是还有个段子,说是新浪微博的好友推荐系统,对于用户A的好友B和C,系统把B和C进行好友互推,导致的结果就是:A的老婆和A的小三认识了,或者A的女友和A的前任认识了。虽然这种情况在现实中出现的概率不会太高,但是后果很严重,至少也说明了推荐问题可以做的很简单,但是要实现精准的推荐也不是件简单的事情,比如对A和B以及A和C的交流信息做深层次的文本挖掘或许可以解决上面这种尴尬。

五、聚合阅读

  聚合阅读的话,偏执点的程序员会自己搜集个人喜好的RSS订阅(以前自己居然用过USENET),而普通大众手机端最流行的莫过于今日头条了(我的好几个朋友反对,说标题党信息太多)。虽然现在已经卸载了,但基于以前的使用经验,他会给每篇文章打几个TAG,当用户不喜欢的时候,可以选择原因,包括内容性质的TAG(比如某个明星),或者评价类的TAG(比如内容质量差),借此实现个性化的推荐。
  目前个人的新闻阅读方法都是讲RSS烧录到blogtrottr,然后他会自动收集新闻然后发送到我的邮箱中,并且是免费使用的。大家不要声张,希望这个好东西能存在的长久点。目前的问题是每日推送的有点多,而且有些是重复的,ThunderBird上要是能搞个插件,排重后优先把我感兴趣的复制一份到某个目录就方便多了。

六、广告

  广告投放不得不提Google Ads了,其算是Google的命脉,所以也极为的重视,Google Ads算是一个联盟,你可以选择将Google的广告挂在自己的网站上,当有点击的时候,Google会给你相应的收益。Google Ads对广告把控的算是比较严格的,当时自己作弊点击,被Google发现后取消了广告收益,因此Google对广大广告投放者来说还是比较负责人的。
  这里还有个段子,说的是有个哥们处于好奇在淘宝网搜了一下“棺材”,结果一个多月他打开新浪微博的时候,就给他推介寿衣、骨灰盒寿衣之类的。当然上文的重点偏向了用户隐私和数据贩卖,但在中国应当习以为常了吧,广大网民基本都是裸奔,在国外的话,也有专门做这个的公司,叫做BlueKai,目前已被Orale收购,针对企业客户,他们会给企业提供的数据做分析,然后给出广告投放的个性化方案。如果只是这个,还不算牛逼的,他做了个数据Market,有客户数据的公司可以把数据卖给他,他们对数据进行清洗(最主要把涉及用户隐私的部分抹掉)、加工之后,对于有需要的公司可以买下和自己胃口的用户,将广告定向投放给他们。想想都是一件不可思议的壮举!
  不过现在国内甚至国外很多网站浏览的时候,也会给出京东或者淘宝的个性化推荐,不知道是由BlucKai这种公司运营的,还是这些网站出售接口给京东、淘宝这样的大客户自行实现的。

七、其它

  推荐系统表面看就是给出一些信息,可以做的很粗放,也可以做的很精细,其必须考虑到客户需求和商家(包括第三方商家)利益之间能够最大化。比如长尾效应和马太效应,前者在关注重点客户主流需求的同时,也可以挖掘潜在个性化客户,往往会有的更大的增长空间;后者可以维持公平竞争兼顾扶植一些成长型的客户;对于客户,你可以准确推荐,也可以给用户多样化推荐,甚至给用户“惊喜/尝试”型推荐,总之一切尽在细节之中,没有什么是绝对的好与不好的!

本文完!

参考