推荐系统

用Mapreduce实现推荐系统


提纲

  1. 什么是推荐系统
  2. 如何设计一个推荐系统
  3. mapreduce实现推荐系统

什么是推荐系统

  1. 当用户没有明确搜索目标时,预测用户可能感兴趣的物品并进行推荐的系统 ->电商网站;
  2. 当用户有明确搜索目标时,协助用户找到找到他们感兴趣的信息 ->搜索引擎。

设计一个推荐系统

针对第一类推荐,以电影推荐为例,,数据集中包含用户ID、电影ID、电影评分

1. 推荐系统中的算法;

  1. 基于用户的协同过滤算法(User CF);
  2. 基于物品的系统过滤算法(Item CF)
  3. 。。。

基于用户的协同过滤算法(User CF)

  1. 找到和目标用户兴趣相似的用户集合;
  2. 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。


基于物品的系统过滤算法(Item CF)

  1. 计算物品之间的相似度;
  2. 根据物品的相似度和用户的历史行为给用户生成推荐列表。


2. 选择其中适用一种算法;

这里采用的是Item CF。

  1. 电影网站中,用户的数量远远大于物品的数量,找到相似用户的工作远远大于找到相似物品的工作量;
  2. 用户的兴趣可能发生改变,这时需重复计算物品的相似度,而物品不会频繁发生变化,降低了计算量;
  3. 根据用户的历史数据,更有说服力。

如何实现Item CF

如何定义不同电影之间的关系?

  1. 基于用户的角度:历史观看记录、历史评分记录、喜爱列表。

a. 如果某一个用户同时观看了2部类别差别很大的电影,这不能将这2部电影归为相似,因为大部分的用户肯定不会同时观看2部差别很大的电影;
b. 如果用户给电影打分,即便评分很低,也认为两个电影相似,因为用户是凭着自己的喜好去看的,评分低是由于本身的导演、演员、剧情等其他因素造成的。

  1. 基于电影的角度:电影类别、电影制造厂商。

如何体现不同电影间的相似性?

根据每个用户的历史观看记录,建立邻接矩阵。



邻接矩阵中,对角线表示观看过该电影的用户总数;非对角线表示同时观看过两部电影的用户总数。



虽然找到了相似电影,但是此时不能直接就推荐给用户,因为用户可能只是对该电影感兴趣,但是不一定看完以后会喜欢该电影。因此仍然额外需要考虑用户的历史评分。

如何区分不同电影间的差异性?

根据用户的历史评分记录,区别对待每个用户,为每个用户建立评分矩阵;



这里B对M4、M5的评分不能默认为0,可以设置为B评分电影的平均分(3+7+8)/3。

  1. 矩阵计算得到推荐结果。

对最初的邻接矩阵进行改进


  1. 归一化处理的目的在于更加精确的表示两部电影间的相似性。以M1、M3之间和M2、M3之间的关系为例。如果M1与M3之间的相似度为1,M2与M3之间的相似度为2。表面上,M2与M3的相似度更高,但是,假设M1与其他电影的相似度为0,M2除与M3以外还与其他电影有关系。显然,我们不能认为绝对值大的相似度就一定高。
  2. 引入归一化后,电影间的相似度比较建立在全局关系上,相似度的大小是一个相对值。除此之外,归一化矩阵还体现了电影间的不对等关系,即M1对M2的关系与M2对M1的关系不是相等的概念,类似生活中的女神、屌丝间的关系,屌丝对应只有一个女神,女神对应着多个屌丝。


为甚么要做矩阵相乘(本质/意义):基于电影间的相关性和用户评分的差异性得到一部电影可能带给另一部电影的得分。以第一行M1对所有其他电影的关系为例,M2对M1的关系/权重是2/6,B对M2的评分是7,即M2有2/6的概率给M1带来7分。
注意:
结果中B对M1的评分反而高于对M2的评分是因为评分矩阵中M4、M5初始设置的0,导致一个错误的结果。

3. 用Mapreduce实现。

input文件应该存储什么数据结构?矩阵?
No!!!。1.浪费空间,存在许多空的单元;2.不利于修改,增加/减少一个用户就需要修改整个矩阵。
这里采用user_id,movie_id,rating的结构存储初始数据。



如何通过上述数据结构得到邻接矩阵?

1.数据预处理,建立用户历史观看过的矩阵->根据用户id拆分数据,再根据相同用户id合并数据

  1. 根据用户id拆分数据 ->Mapper(key=userId,value=movieId+rating)


  2. 根据相同用户id合并数据 ->Reducer


  3. 建立邻接矩阵


疑问:
1.如何计算一部电影被多少人看过?



2.如何计算两部电影同时被多少人看过?
Mapper



图中只考虑了前2行的情况,省略了后面2行的情况
Reducer
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容