推荐系统--关于推荐系统的一些思考和协同过滤

过年前打算学习一下推荐,买了一本国内推荐系统的经典,项亮的《推荐系统实践》,因为封城,导致3月末才拿到这本书,今天好好看了一下。
正式开始内容之前,想说点题外话,第一个是关于为什么要学习推荐系统,关于这个问题是因为结合19年工业界NLP和算法的发展,单纯能把NLP落地的项目已经越来越少了,但是NLP往推荐、搜索、广告方向做,落地的方式还是很广阔的,所以准备往这个方向走。
第二个是关于这本《推荐系统实践》,12年的书,但是现在还是卖得这么好,而且是推荐系统,是实打实能落地的方向,说明两个问题,第一个是推荐领域虽然深度学习有大幅度的运用,但是取得的效果,在某些场景下可能并不太好,老的方法在现在也还能用;第二个说明这本书确实是经典,经典的东西永远不会过时,所以推荐大家看一看。

推荐系统的思考

推荐系统,在之前对这个系统已经有了一个大概的认识。我在网上之前找到一张推荐系统架构的图
微博AI实验室负责人给的图

学了算法肯定会听过协同过滤算法,然而协同过滤也好,还是现在流行的DIN和FM也好,这只是推荐系统算法的一部分,做好一个推荐要考虑的还有很多,针对于现在来说,先从推荐算法这一块入手。

这本书的第一章,写的是如何评价一个推荐系统。里面除了准确率召回率,有两个评价指标我仔细看了一下,新颖性和惊喜度。

  • 新颖性:给用户推荐那些他们以前没有听说过的物品
  • 惊喜度:如果推荐结果和用户的历史兴趣不相似,但却让用户觉得很满意,那么就可以说推荐结果的惊喜度很高。

我们来回想一下我们经常用的APP的推荐系统,淘宝,豆瓣,头条系APP,知乎。
先说头条系APP和知乎,大家在使用过程中有没有发现,系统的推荐结果都是在历史的关注的行为里面,把相似的结果推荐给你。这就导致了,如果你不看新的话题内容,就一直在老的话题里循环,这就是所谓的马太效应,个人认为这个推荐策略是非常错误的,老是把关注点放到一个内容上,久而久之就是在浪费时间,推荐毫无新颖性和惊喜度。这也是我为什么越来越不喜欢知乎和头条抖音等这些app。
而淘宝、豆瓣不一样,它们的推荐策略会为你提供一些之前没有关注的东西,也就是在它们的推荐系统里有新颖性和惊喜度的考虑,这才是有温度的推荐系统。

协同过滤

协同过滤(CF)是一种基于领域的一种算法,在1992年就被提出,也算老古董了。

1. 基于用户的协同过滤(UserCF)

在用微博的时候应该会注意到,推荐栏里面有 你关注的XXX也关注了XXX。这就是基于用户的协同过滤,把你感兴趣的用户感兴趣的东西推荐给你
这里我不想把公式复制粘贴出来,因为这个真的很容易理解,这里说一点的就是,如果用户A买了一本《新华字典》,用户B也买了一本《新华字典》,但我们并不能说用户A和用户B他们感兴趣的方向一致,只能说他们都上过小学。所以有一个改进后的基于用户的协同过滤

image

这个公式里面的分子

惩罚了用户u和用户v共同兴趣列表中热门物品,N(i)代表对物品i有过兴趣的用户集合。

2.基于物品的协同过滤(ItemCF)

在淘宝里面,推荐栏里面有 和该商品类似的商品XXX。这就是基于物品的协同过滤,把你感兴趣的东西的类似属性的东西推荐给你
这里面蕴含着一个假设:就是假设每个用户的兴趣都局限在某几个方面,因此如果两个物品属于一个用户的兴趣列表,那么这两个物品可能就属于有限的几个领域,而如果两个物品属于很多用户的兴趣列表,那么它们就可能属于同一个领域,因而有很大的相似度。
这里根据这个假设就会出现一个问题,就是如果你粉了一个爱豆,系统会给你推荐和你这个爱豆相似的爱豆,比如你粉蔡徐坤就会给你推荐韩国女团的练习生。但是有一个卖假粉的公司,他们的一个账号会粉无数的爱豆,这就意味着蔡徐坤和无数个爱豆发生了关系有了相似性,这样这个算法会给你推荐其他人了。
这里就有一个排除活跃用户的公式了,因为活跃用户对物品相似度的共现应该小于不活跃的用户。

image

这个和基于用户的协同过滤惩罚大量相似用户类似。

3.UserCF和ItemCF的比较

项目 UserCF ItemCF
性能 适用于用户较少的场合,如果用户过多,计算用户相似度矩阵的代价交大 适用于物品数明显小于用户数的场合,如果物品很多,计算物品相似度矩阵的代价交大
领域 实效性要求高,用户个性化兴趣要求不高 长尾物品丰富,用户个性化需求强烈
实时性 用户有新行为,不一定需要推荐结果立即变化 用户有新行为,一定会导致推荐结果的实时变化
冷启动 在新用户对少的物品产生行为后,不能立即对他进行个性化推荐,因为用户相似度是离线计算的 新物品上线后一段时间,一旦有用户对物品产生行为,就可以将新物品推荐给其他用户 新用户只要对一个物品产生行为,就能推荐相关物品给他,但无法在不离线更新物品相似度表的情况下将新物品推荐给用户
推荐理由 很难提供 可以根据用户历史行为归纳推荐理由

针对不同的业务场景,可以用的算法也不同。ItemCF需要维护一张物品相关度的表,当物品量更新速度太快时,此表的维护在技术上有难度,所以对于电商、音乐、图书等网站而言,ItemCF的优势更大。新闻类网站对于新用户可直接推荐热门新闻即可,为了满足实时性,新闻类更适合用UserCF。

但是算法不是万能的,协同过滤有些场景无法覆盖,比如两个不同领域的最热门物品之间往往具有比较高的相似度,仅仅靠用户行为数据是不能解决的,所以就要引入新的特征了。这个下一次再讨论

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容