背景介绍¶

应用场景¶

电商领域¶

在电商领域，比较典型的是亚马逊的个性化推荐系统，被称为“推荐系统之王”。亚马逊有 20%~30% 的销售额来自于推荐系统。主要形式包括个性化推荐列表、相关推荐列表及打包销售等。

个性化推荐列表：将那些和用户喜欢的物品比较相似的物品，或者用户好友喜欢的物品推荐给用户。
相关推荐列表：当用户购买一件物品后，将那些购买此物品的用户也经常购买的其他物品，或者浏览过此物品的用户也经常购买的其他物品推荐给用户。
打包销售：当用户单击某个物品的购买按钮时，将那些其他用户在购买此物品时，连同购买的其他物品推荐给用户。

电影视频¶

Netflix:基于物品的推荐
YouTube,Hulu

音乐¶

Pandora:专家标记
Last.fm:用户行为

社交网络¶

Facebook
Twitter

阅读¶

Goodle Reader

基于位置的服务¶

Foursquare

个性化邮件¶

Tapestry

广告¶

Facebook

推荐系统的组成¶

（一）、画像

1、定义：画像指的是从用户产生的各种数据中挖掘和抽取用户在不同属性上的标签，如年龄、性别、职业、收入、兴趣等。

2、画像生成路径

用户行为日志收集和存储（离线数据和实时数据）
用户行为提取，特征加工，生成特征向量（静态特征和动态特征）
利用有用户属性标签的数据作为有标注数据来训练画像预测模型
对更多的有标签用户属性来进行预测

3、画像分类

按照数据类型划分：（目前使用较多的分类）

静态画像：用户相对稳定的信息。缺点：实时性不够，过于粗糙
动态画像：用户不断变化的行为信息，根据用户行为将物品的结构化结果传递给用户

按照画像性质进行划分

定性画像（定性描述用户或内容的特征信息）
定量画像（统计类标签，预测类标签）
定性画像+定量验证

在以上的三种画像分类中定性画像，是通过用户的行为习惯，挖掘出的标签信息，一般可以深入继续挖掘用户的动机，但这类的画像标签，一般无法用数据直接验证，只能定性理解。与定性画像不同，定量画像有充分数据验证，可以通过数据统计和分析来进行验证，但他对统计的要求比较高，且一般难以挖掘用户情感倾向和行为操作背后的原因和深层次的动机。最优的方法就是第三种将二者结合起来的方法，这种方法既能通过数据描述也能从用户行为中验证画像的准确性，但将二者结合的方法会存在工作量大的问题，且定性画像与定量画像之间可能存在相悖的结论，需要较为丰富的经验进行论证。

4、画像验证

准确率
覆盖率

准确率指的是被打上正确标签的用户比例，准确率是用户画像最核心的指标，一个准确率非常低的标签是没有应用价值的。通常会通过以下两种方法来评估标签的准确率

在标注数据集里留一部分测试数据用于计算模型的准确率
在全量用户中抽一批用户，进行人工标注，评估准确率（数据更可信）覆盖率指的是被打上标签的用户占全量用户的比例，同理一个覆盖率太低的标签，是没有应用价值的。通常对于覆盖率的评估是以某一个标签覆盖的用户比例和覆盖用户的人均标签数作为评估标准

（二）、召回

1、定义：从全量的文章库中按照一定的规则筛选出一个文章候选池，一般的规则有：按照机型，地域，热点和用户-文章协同过滤 2、召回的作用：从全量内容中，第一次粗过滤，筛选出大概率适合展示给用户的内容，减少后续计算的复杂度

3、常用召回方法：

基于热点召回：基于热点事件的召回，通过对热点事件相关的内容进行计算，同时匹配可能感兴趣的用户，进而进行推荐展示

基于地域召回：计算用户和内容的位置信息，以地理位置作为匹配关联的核心因素，进而圈选出相匹配的用户和内容

协同召回（基于用户和内容两种召回方法）：主要分为基于用户的协同召回和基于内容的协同召回两种方法，以基于用户的协同召回为例进行说明：

当需要对用户A进行推荐时，找到和A有相似兴趣的其他用户群B，把B喜欢看的，而A还没有看过的内容进行召回，进而推荐给A用户

（三）、排序

1、定义：是推荐系统中召回后的一个模块，主要是一个或多个指标为依据，进行打分，一般将得分按照倒序进行排列

2、排序的作用

高效：帮助用户找到想要的商品（新闻/音乐/……），发掘长尾降噪：将重复的文章进行合并，剔除垃圾信息提高用户访问的频次：让用户频繁访问，并总是能找到他们想要阅读和购买的物品

3、衡量指标

CTR (Click Through Rate)：当给用户推荐他真实喜欢的内容时，用户就会产生比较大的点击意愿，进而产生较高的点击。