【《数学之美》笔记(三)】推荐系统的奥秘

该系列合集会同步发布与 GitHub HomePage


1. 基于用户数据:协同过滤算法

归功于亚马逊工程师的“发明”——“一个客户买了这个东西,那么他也可能买另一个东西”

基本思想:

喜好相同的人和人之间有相似的消费/行为模式。喜好这个东西的人,倾向于也喜好另一个

实现的方法为“协同过滤”算法 (collaborative filtering)

下面以音乐推荐系统为例进行说明,基于对用户历史数据的不同侧重,可以分为以下两类应用情景:

(1)基于用户:对每一个用户的听歌偏好作为向量,计算用户喜好之间的相似度,找到与某个用户X喜好最相似的一个其他用户Y,然后将Y的歌单里有而X没有的歌推荐给X

(2)基于项目(单曲):将用户对于一首歌的偏好作为向量,计算单曲之间的相似度,若某个用户喜欢/收藏了某一首歌,则将于这首歌相似的歌曲推荐给这个用户

但是,基于单一协同过滤算法的推荐系统会存在明显的误差:

  • 除了用户及消费模式信息,不涉及被推荐单曲本身的任何信息

    这使得热门音乐币冷门音乐更容易得到推荐,因为前者拥有更多数据

    如果推荐系统只能给出热门歌曲的推荐,往往很难让人感到惊喜

  • 而基于项目(单曲)的协同过滤,也有一个问题,就是相似使用模式下的内容异质。

    例如你听了一张新专辑里面全部的歌,但除了主打歌,其他的一些插曲、翻唱曲以及混音曲可能都不是歌手的典型作品,那么协同过滤在这个时候,就会因为这些「噪音」而产生偏差。

  • 最大的问题便是“没有数据,一切皆失效”

2. 基于内容:摆脱协同过滤算法对用户数据的过分依赖

在数据量庞大且足够干净的时候,协同过滤算法是非常强大的,但如果作为一个新用户,在数据稀少的情况下,推荐系统该怎么获知我的口味?

可以利用歌曲本身的信息来得到推荐结果,其基本思想是:

当你喜欢一首歌时,你会倾向也喜欢同类型的其他歌曲

不同歌曲有很多不同的属性,用一个向量去描述该单曲的属性,每一个维度的值代表一个属性的定量描述

按照这些属性,可以计算两首歌曲的相似度

基于内容的推荐算法更像是对协同过滤算法以上缺陷的一种补充——假如没有大量用户数据,或者想听冷门歌曲,我们就只能从音乐本身寻找答案了

前面提到,可以根据歌曲的不同维度的属性去构造一个特征向量去描述它,但是可供选择的属性实在是太多了,因此需要构造的特征向量维度过大——可以利用深度学习建立基于音频的推荐模型,通过特征的embedding和降维方法,把这么多特征映射到低维变量空间里

3. 相似度到底是怎么算出来的?

可以拥有描述相似度的统计量为:欧式距离和余弦相似度

可以看出,在上图中,如果固定B,让A沿着直线OA方向移动,在移动过程中,AB的余弦夹角始终保持不变,而两点之间的绝对距离一直在变化

这种差异使得在使用它们进行相似度描述时,要考虑数据的特性:

(1)欧式距离:能够突出数值绝对差异,在欧式距离下,用户对歌曲的偏好都可以被认为是一样的分数,可以简化歌曲相似度的计算;

(2)余弦相似度:更多是从用户偏好方向上区分差异


参考资料:

(1) 吴军《数学之美(第二版)》

(2) 网易云音乐首次披露推荐算法: 让单身狗犹如过情人节的日推原来是这样生成的

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容