【阅读笔记】项亮前辈的《推荐系统实战》

推荐系统是个有意思的方向。项亮前辈的《推荐系统实战》来当作入门的第一本书还是很合适的，这段时间在断断续续的抽空阅读了一遍。本书写的浅显易懂，很好的勾勒出了推荐引擎十年前的主流算法，以及工业推荐系统是如何打磨的。从这个角度讲，项亮前辈很好地完成了”让学生了解如何将自己了解的算法实现到一个工业系统中去“这一写作目标。

看书的过程中简单记录了一些内容，夹杂着自己突然产生的一些想法。用以过段时间后的来重新复习消化本书。

原文发布于个人博客(好望角)，并在博客持续修改更新，此处可能更新不及时。

序&前言

随着互联网信息技术的快速发展，我们逐渐从信息匮乏的时代进入了信息过载（information overload）的时代。在这种情况下，不论是对于想要快速找到目标信息的消费者，还是想要让自己的信息脱颖而出的生产者，都是严峻的考验。推荐系统正是在这种环境下有了生长的土壤，它一方面可以提高用户获取有效信息的能力，另一方面可以提升高质量信息的曝光度，实现双赢。但不可避免地，也会产生信息蚕房这样的桎梏。我们该何如构建一个高效的信息推荐系统呢？我们该入何如避免信息蚕房的桎梏呢？

在写一本书前，应该思考这样几个问题。其实不论做什么事情都是一样的道理。

为什么要写这本书？
写给谁看？
有几种角度去写这本书？

推荐系统的应用前景早在2010年的时候就已经被挖掘出来，并且开始被总结成书……虽然最早提出是在上世纪90年代。那么下一个重要领域是什么？强化学习吗?

评价推荐系统

什么是推荐系统

在互联网经济初兴之时，信息还没有那么的爆炸。一些公司可以人为地收集一些热门网站，对于信息分类组织，方便人们找到自己想要的信息。这个商机造就了第一代互联网巨头，美国有雅虎，中国有腾讯新浪搜狐网易四大门户。当技术发展，人们在明确知道自己的需求的时候，可以通过搜索功能寻找信息，这样的商机成就了Google、百度这样的第二代互联网巨头。而很多时候，人们并没有明确的需求，仅仅是想要从海量信息中找到一些自己感兴趣的信息来进行消遣。这个时候，能够通过历史数据准确捕捉用户兴趣的千人千面推荐系统就派上了用途，第三代巨头字节跳动崛起。

搜索系统什么时候比较有用呢？当信息过载，且用户有明确需求的的时候。但如果用户只是想消遣一下，并没有明确的需求该怎么办？你需要一个人或者一个工具来帮你对于过载的信息进行筛选，给出一些建议供你选择。然而人力总是昂贵且不是是实时可得的，这个时候个性化推荐系统就派上了用场。它就是一个能够自动联系物品和用户的工具。

利用用户行为数据

用户的行为数据分为两大类，一类是通过设计的用户反馈模块返回的显性反馈，通常这类数据数量较小，产生代价更高，对于用户画像的描述贡献更大；另一类是用户在网站上的一般性操作（例如浏览）返回的隐性反馈。这类数据并不会十分明确地表达出用户的喜好，但数据量比较大，对于推荐系统的构造也起到了不可忽视的作用。

隐形数据中的大量噪音如何消除？（例如用户被虚假标题诱导的错误点击，或者交互不合理导致的错误点击）

基于邻域的算法

基于用户的协同过滤算法

基于邻域的用户协同过滤算法是最古老的推荐算法之一。这个算法有两个关键任务。

如何找到与目标用户兴趣相似的用户集合？
- 两个用户有过正反馈的物品集合越大说明两个用户的相似性越大，但很明显，所有物品在这个方法下的权重不应该是相同的，需要对热门的物品的权重进行一个惩罚。
何如找到这个集合中用户喜欢的，且目标用户没有听说过的物品推荐给用户（新奇）。
- 是否推荐一个物品有两方面因素决定，一方面这个集合中的用户有多少个对这个物品有过正反馈操作？另一方面，这些有正反馈操作的用户与目标用户的兴趣相似度有多大？

基于物品的协同过滤算法

这是2010年左右业界最常用的算法。用以解决基于用户的协同过滤算法的两个弊端。第一，基于用户的协同过滤算法要探究所有用用户之间的相似性，那么随着用户的增加，用户相似度矩阵将越来越大。时间复杂度和空间复杂度也以平方的级别增加，矩阵难以维护。其次，基于用户的协同过滤算法做出推荐的时候没有办法做出推荐解释，用户的信任度比较低。

基于物品的协同过滤算法有两个关键任务。

何如获取物品之间的相似度？
- 物品的相似性用后验概率来表示，喜欢物品A的用户中有多少人同时喜欢B，人数越多，说明两个物品的相似度越高。（这里需要对特别活跃的用户降权重）
何如根据物品相似度和用户的历史行为给用户生成推荐列表。
- 某物品与目标用户历史上正反馈的的物品的相似度越高越容易被推荐。相似度归一化可以提高性能。

UserCF 与 ItemCF之间的比较

UserCF的推荐结果更加着重于反应和用户兴趣相似的小群体的热点，也就是说大家都关心的东西就推荐给新用户，新用户也大概率会关心；ItemCF 的推荐结果更着重于维系用户的历史兴趣，不同用户也有自己所关心的领域。

	UserCF	ItemCF
性能	适用于用户较少的场合，如果用户很多，计算用户相似度矩阵代价很大	适用于物品数明显小于用户数的场合，如果物品很多（网页），计算物品相似度矩阵代价很大
领域	时效性较强，用户个性化兴趣不太明显的领域	长尾物品丰富，用户个性化需求强烈的领域
实时性	用户有新行为，不一定造成推荐结果的立即变化	用户有新行为，一定会导致推荐结果的实时变化
冷启动	在新用户对很少的物品产生行为后，不能立即对他进行个性化推荐，因为用户相似度表是每隔一段时间离线计算的	新用户只要对一个物品产生行为，就可以给他推荐和该物品相关的其他物品
	新物品上线后一段时间，一旦有用户对物品产生为，就可以将新物品推荐给和对它产生行为的用	但没有办法在不离线更新物品相似度表的情况下将新物品推荐给用户
推荐理由	很难提供令用户信服的推荐解释	利用用户的历史行为给用户做推荐解释，可以令用户比较信服

没有“银弹”，在不同的业务场景下，在不同的数据背景下。算法的表现不尽相同，真实的推荐结果往往是扬长避短，多种推荐算法的集成。

一个推荐系统可不可以用户连续的使用时长为标准切换不同的算法。例如抖音，用户刚登陆可以用UserCF推荐一波热点视频，随着用户连续使用的时常增加，可以逐步平滑的切换到ItemCF实时变化，推荐更多兴趣化的内容。

隐语义算法

就是文本挖掘领域中的主题模型（LSI、pLSA、LDA等）。一方面提取待推荐物品的主题向量，另一方面提取目标用户的兴趣主题向量。当两个向量相似度越高说明越合适被推荐。

这里有个构造负样本的点需要注意。应该选取那些比较热门但是用户却没有行为的样本作为负样本。

这类方法有个弊端就是很难做到较高的实时性。因为计算用户隐向量的时候需要扫描用户之前的所有的操作记录，很耗时。在实时性要求比较高的新闻推荐领域不适合使用这种方法。

基于图的模型

基于图的推荐算法算法是构造基于用户和物品的二分图，用基于大数据量统计的随机游走算法（PersonalRank）来衡量顶点之间的相似性，进而选择推荐的物品。顶点之间的相似性需要从以下三个方面衡量

两个顶点之间的路径数（相关性高的两个节点之间的路径数多）
两个顶点之间的路径长度（相关性高的两个节点之间的路径长度短）
两个顶点之间的路径经过的顶点（相关性高的两个节点之间的路径不会经过出度比较大的节点）

随机游走算法就是每次从目标点出发，按照特定的概率决定是继续走下去还是返回起始点。如果继续走下去，就按照均匀分布的方式随机选择下一个节点作为下次需要经过的结点。循环往复这个过程。但是随机游走算法需要多次迭代才能收敛，只能用早停或者构造转移概率矩阵的方式求解。

利用用户标签数据

推荐系统中的用户标签数据是重要的用户反馈。相比于用户的行为数据，这样的显性反馈对于捕捉用户的兴趣准确性会更高。但是再或者标签数据的时候，也要关注如何获得更高质量的数据，显然给用户推荐他可能选择的标签可以显著降低用户反馈的成本，同时也能提高反馈标签的质量（用户自己写新标签可能写错，或者新构造出了与现有某标签的同义标签）。因此，关于这个点主要有以下两个问题需要解决。

如何利用标签数据为用户更好的推荐物品？
如何为用户推荐标签，以提高标签数据的质量？

以用户反馈标签构造推荐算法，最简单的想法。首先可以找到用户最喜欢用的若干标签，然后找到拥有这些标签最多的对应物品，将这些物品推荐给用户。这个算法会非常倾向于热门标签对应的热门物品，为了提高推荐系统的新颖性，可以通过TF-IDF的方法去降低热门标签的权重，甚至同时惩罚热门物品。

复杂一点的算法，可以将用户，标签，物品三部分分别分开，构造成图结构的三部分顶点，然后同样用随机游走算法去推荐物品。基于标签的系统还有一个优点就是可以很好的根据标签生成推荐理由，增加用户的信任度，从而提高点击通过率。

为用户推荐标签的算法可以简单到只有一行代码，因为仅是一个排序算法。第一种，可以推荐系统中最常出现的标签；第二种方法，可以推荐给用户其本身最喜欢用的标签；第三种，推荐给用户的标签是待打标签物品最经常被打的标签。然后，还可以进一步地将它们线性加权起来使用。当然还可以用图结构下的随机游走算法确定所推荐的标签。

利用上下文信息

一个好的推荐系统往往要考虑多方面的信息。前面所述的所有推荐算法都可以增加关于用户时间信息，地理信息，用户心情信息等等上下文信息来辅助进行推荐。

以时间效应为例，我们在周中搜索的内容往往是工作相关的内容，周末搜索的往往是个人兴趣，呈现出强周期性；我们在冬天想要买的鞋子显然和夏天想要买的鞋子不是一样的种类；一个体育新闻只有刚发生时才是用户想要的，时间越久用户对于他的兴趣是越低的。如果能够基于此能够特定调整推荐系统的推荐内容，相信会提高用户的满意度。加上时间信息之后，推荐系统就相当于多了一个时间的维度，成为一个时变系统。

推荐系统的时效性分为近期和远期两种。这需要算法平衡用户近期行为和远期行为。既要让推荐列表反映出用户近期行为所体现出的兴趣变化，又不能让推荐列表完全受用户近期行为的影响，保证推荐列表对用户兴趣的预测延续性。

另一方面，推荐系统应该在时间维度上体现出多样性这一特点。这要求加入用户有一段时间没有操作，推荐列表也能表现出一些变化。要做到这一点比较容易，大体有以下三种方法：

推荐算法生成的时候本身就加入一些随机性。比如最后展示的是个结果是从排名前二十的结果中随机采样获取的。
对之前看到过的内容进行降权。减小再次生成的概率。
推荐系统集成若干种算法，可以根据时间信息，采取不同的算法推荐。

如果从地理信息的位置信息考虑个性化推荐系统，有一种金字塔模型的集成算法思路。根据用户的地理位置信息进行树结构的划分，可以划分若干层。基于每一层的位置信息进行推荐内容的生成，最后展示的推荐信息是每一层信息的加权结合。心情信息也可以参照此思路采取类似的算法。

利用社交网络信息

根据社交网络的推荐给推荐系统带来最大的好处就是可以增加用户的信任度，其实是可以辅助解决新用户的冷启动问题。推荐系统的根本目的是提高用户点击率（满意度），而提升推荐物品的被信任程度和提升被推荐物品的准确度（惊喜度）是同时存在的两种实现方式。这种社会化推荐对于提升用户的广告接受度有着非常强烈的作用。

基于社交网络的推荐

最主要的社交网络信息从用户的注册邮件 / 手机通信录来获得，当然了，如果用户愿意绑定自己的社交帐号到新网站。新网站有可能会获取用户的在社交网络中的关系以及兴趣点，以实现根据社交网络关系的推荐。

社交网络的数据一般分为三种，基于社区（小组）的弱关联社交关系；基于单向关注的社交关系（例如微博）；基于双向确认的强社交关系（例如微信）。

社交推荐同样可以采用基于邻域的推荐方法，以及基于图的推荐方法。值得注意的是，同热门物品权重过大的问题一样。社交网络关系中也存在”大V“这样的热门人物，需要有特殊的权重处理。另外，在实际应用中，UserCF的实用价值不高，因为在给一个用户作推荐的时候，需要他所有好友的历史行为数据，计算起来会比较缓慢。现有的社交网络推荐主要以信息流的方式存在，当某用户产生一条内容后，这条内容会出现在所有关注他的人的消息队列当中。如果这个消息是一条广告推荐，非常有利于提升其他用户对于广告品牌的好感以及对广告内容的接受程度。

给用户推荐好友

好友推荐系统的目的是根据用户的现有好友、以及用户的行为记录，给用户推荐信的朋友，从而提升整个社区的社交网络稠密性，提升用户粘性以及活跃度。

具体的推荐思路有以下几种。

基于用户基本信息：例如用户的地点，年龄，性别，学校，职业等等信息推荐潜在的好友。
基于共同兴趣：UGC社区中一定会设计若干机制让用户对内容反馈。可以利用这些反馈数据构造用户的兴趣向量，通过计算向量相似度的方式找到潜在的好友。
基于社交网络图：根据用户的社交关系链进行推荐，就是著名的六度人脉网络理论。

设计推荐系统的十个建议

确定你真的需要推荐系统：只有信息过载时候才需要，不要为了推荐而推荐。无论算法是否复杂，能过达到目的的系统就是好的系统。
确定商业目标和用户满意度之间的关系：用户满意度和商业目标并不一定是完全吻合的。商业目标更多关注短期，用户满意度则是长期收益。
选择合适的开发人员。
忘记冷启动：互联网大潮席卷每一个人，每个用户都不断的在互联网都吓自己的蛛丝马迹。我们有越来越多的初始数据来了解一个人，冷启动问题将慢慢消逝。
数据与算法：深刻理解数据是设计一个好的算法的必要前提。数据分析决定了如何设计模型，算法只是去优化这个模型。
呈现方式：找到相关值得推荐的物品不难，难的是以何种方式展现给用户，以提高用户的点击率。
社交网络的力量：社交推荐势必会慢慢替代陈旧的基于邻域的协同过滤算法，这是推荐系统的高地。
不断提高系统的、模型的可拓展性。
选择恰当的用户反馈方式。
设计合理的测评系统，关注推荐系统各个方面的性能。

十年Recsys 总结

2018 推荐系统总结

原文发布于个人博客(好望角)，并在博客持续修改更新，此处可能更新不及时。

最后编辑于：2019.05.24 15:06:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266

【阅读笔记】项亮前辈的《推荐系统实战》

序&前言

评价推荐系统

什么是推荐系统

推荐系统的应用

推荐系统评测

评测方法

评测指标

用户满意度

预测准确度

评分预测

Top N推荐

覆盖率

多样性

新颖性

惊喜度

信任度

实时性

健壮性

商业目标

评测维度

利用用户行为数据

基于邻域的算法

基于用户的协同过滤算法

基于物品的协同过滤算法

UserCF 与 ItemCF之间的比较

隐语义算法

基于图的模型

推荐系统冷启动

用户的冷启动

物品冷启动

系统冷启动