推荐系统实践学习系列(一)好的推荐系统

主要学习内容:

  • 1、什么是推荐系统
  • 2、个性化推荐系统的应用
  • 3 、推荐系统评测指标
  • 4、 推荐系统评测
一:什么是推荐系统

场景:假如现在你要买一包花生米,你可以选择去便利店,找到货架,转一圈,比较花生米的几个牌子或价格,掏钱付款;当然了,你也可以去附近的大超市(沃尔玛),走进店里,按照分类指示牌走到食品楼层,再找到卖干果的货架,在货架上寻找你要的花生米,挑喜欢的牌子比较价格,掏钱付款;更懒点的方法是,打开手机淘宝,搜索框输入花生米,找到喜欢的牌子与价格,加入购物车,付款,等待送货上门。

上面的三个例子描述了用户在有明确需求的情况下,面对信息过载所采用的措施,在便利店,用户可以凭借自己的经验,找到花生米,进行购买;在像沃尔玛大一点的店铺,用户需要借用分类信息去寻找花生米;在淘宝里,商品数量巨大,用户只能通过搜索引擎找到花生米。

上面的情况下是用户有明确需求,但是在用户没有明确需求的情况下,当你打开电影网站,里面有很多数不过来的电影,这时候你会不知道看哪一步电影。这时候就是一个信息过载的时候,可能这时候喜欢看电影的朋友会给你推荐几个好看的电影,可能你会上豆瓣去看一下电影评分再确定是否要去看某部电影,但是有可能现在只有你自己,这时候你需要一个“导游”,它会分析你的历史兴趣,从很多的电影中找到几部符合你胃口的电影,这个工具就是个性化推荐系统。

在当今信息化的世界,信息过载的问题越来越明显,人每天头脑接受的信息越来越多,到最后只能筛选出自己所感兴趣的,对自己有用的信息。早先点的代表性的解决方案有分类目录和搜素引擎,雅虎和谷歌是这两个解决方案的代表。但是随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网站,并不能很好的满足用户的需求,so,搜索引擎诞生了,用户可以根据搜索引擎通过搜索关键字来找到自己所需要的信息。但,搜索引擎也不是万能的,当用户不能准确描述自己需求的关键词是,搜索引擎也无能为力。

相比现阶段,推荐系统是一种帮助用户快速发现有用信息的工具。推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣简历模型。从而主动给用户推荐能够满足他们兴趣和需求的信息。这是针对用户来说;从物品商家的角度来说,推荐系统可以更好的挖掘物品的长尾词

解释一下长尾词

传统的80/20原则(80%的销售来自20%的热门品牌)

电子商务网站上的商品绝大多数都不热门,但与传统零售业相比,这些不热门的商品数量极其庞大,因此这些长尾商品的总销售额将是一个不可小觑的数字,也许会超过热门商品(即主流商品)带来的销售额。主流商品往往代表了绝大多数用户的需求,而长尾商品往往代表了一小部分用户的个性需求。

推荐算法的本质是通过一定的方式将用户和物品联系起来,而不同的推荐系统利用了不同的方式,比如利用好友、用户的历史兴趣以及用户的注册信息等。推荐系统能在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推荐给对他们感兴趣的用户。

二 推荐系统的应用

个性化推荐系统需要依赖用户的行为数据,主要作用是通过分析大量用户行为日志,给不同用户提供不同的个性化页面展示,来提高网站的点击率喝转化率。广泛利用推荐系统的领域包括:电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等。这里我未来需要完成的是一项类似今日头条新闻网站个性网推荐的应用。

(1)电子商务网站(亚马逊):
  • 推荐结果的标题、缩略图及其它内容属性
  • 推荐结果的平均分
  • 推荐理由
  • 相关推荐(用户经常购买的闪屏,浏览过的商品,所类似用户或关注用户购买、浏览过的商品)

亚马逊20%-30%的销售来自于推荐系统。

亚马逊的个性化推荐系统让每个用户都能拥有一个自己的在线商店,并且能够在商店张红找到自己感兴趣的商品。

(2) 电影和视频网站(Youtube)
  • 电影的标题和海报
  • 用户反馈模块---包括播放、评分和不感兴趣3种
  • 推荐理由 ----- 因为用户曾经喜欢过别的电影

YouTube使用的是基于物品的推荐算法,有实验结果表明个性化推荐的点击率是热门视频点击率的两倍。

(3)个性化音乐网络平台

个性化推荐的成功应用需要两个条件。第一是存在信息过载,如果用户可以很容易的从所有物品中找到喜欢的物品,就不需要个性化推荐了。第二是用户大部分时候如果没有特别明确的需求,因为用户如果有明确的需求,可以直接通过搜索引擎找到感兴趣的物品。

个性化网络音乐推荐系统正是使用到了这个原理。
音乐推荐的如下特点:

  • 物品空间大:物品数多,空间大,主要针对书和电影而言
  • 消费每首歌的代价很小:对于在线音乐,音乐都是免费的,不需要付费
  • 物品种类丰富: 音乐种类丰富,有很多的流派
  • 听一首歌耗时少: 不需要太多时间,大多数音乐嗨做为背景音乐,同时进行其他工作
  • 物品重用率高: 每首歌用户会听很多遍
  • 用户充满激情:一个用户会听很多首歌
  • 上下文相关:用户的口味受当时用户的心情(高兴,失恋,加薪升职),所处环境(睡觉,学习,开车)
  • 次序很重要:用户听音乐一般是按照一定的次序一首一首的听
  • 很躲播放列表资源:很多用户会创建很多个人播放列表
  • 不需要用户全神贯注:作为背景音乐来播放
  • 高度社会化:当听到好听的音乐会分享给自己的身边好友
(4)社交网络(Facebook)
  • 利用用户的社交网络信息对用户进行个性化的物品推荐
  • 信息流的会话推荐:每个分享和它的所有评论被称为一个会话
  • 给用户推荐好友
(5)个性化阅读
  • 允许用户关注自己感兴趣的人,看到所关注用户分享的文章
  • 搜集用户对文章的偏好信息,允许用户给出喜欢或不喜欢的反馈,不断更新用户的个性化文章列表
(6)个性化广告:

很多互联网公司的盈利模式都是基于广告的,广告的CPC、CPM直接决定了很多互联网公司的收入。

对于随机广告投放是很不合理的。比如给男性投放化妆品广告或者给女性投放西装广告

个性化广告现已成为一门科学:计算机广告学

个性化广告投放和狭义个性化推荐的区别:
个性化推荐着重于帮助用户找到令他们感兴趣的商品,而广告推荐着重帮助广告找到可能对他们感兴趣的用户,即一个是以用户为核心,而另一个是以广告为核心。

目前的广告投放技术分为3种:

  • 上下文广告: 通过分析用户正在浏览的网页内容、投放和网页内容相关的广告。

  • 搜索广告:通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。

  • 个性化展示广告:即大的横幅图片,根据用户的兴趣、对不同用户投放不同的展示广告。

三:评测指标:

1 用户满意度
2 预测准确度

  • 评分预测
  • TopN推荐:准确率/召回率 度量

3 覆盖率:推荐系统对物品长尾的发掘能力

推荐系统是否有马太效应呢?推荐系统的初衷是希望消除马太效应,使得各种物品都能被展示给对它们感兴趣的某一类人群。但是,很多研究表明现在主流的推荐算法(比如协同过滤算法)是具有马太效应的。

评测推荐系统是否具有马太效应的简单办法就是使用基尼系数。如果G1是从初始用户行为中计算出的物品流行度的基尼系数, G2是从推荐列表中计算出的物品流行度的基尼系数,那么如果G2 > G1,就说明推荐算法具有马太效应

4 多样性:不在一棵树上吊死
5 新颖性:给用户推荐那些他们之前没有听说过的物品。
6 惊喜度:

最近几年推荐系统领域的最热门的话题:如果推荐结果和用户的历史兴趣不相似,但却让用户觉
得满意,那么就可以说推荐结果的惊喜度很高,而推荐的新颖性仅仅取决于用户是否听说过这个
推荐结果

7 信任度:

如果你有两个朋友,一个人你很信任,一个人经常满嘴跑火车,那么如果你信任的朋友推荐你去某个地方旅游,你很有可能听从他的推荐。如果你有两个朋友,一个人你很信任,一个人经常满嘴跑火车,那么如果你信任的朋友推荐你去某个地方旅游,你很有可能听从他的推荐

提高推荐系统的信任度主要有两种方法。首先需要增加推荐系统的透明度(transparency),而增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制,让用户认同推荐系统的运行机制,才会提高用户对推荐系统的信任度。

其次是考虑用户的社交网络信息,利用用户的好友信息给用户做推荐,并且用好友进行推荐解释

8 实时性
在新闻、微博等具有很强的时效性网站中,推今天的新闻往往比推昨天的新闻效果好。推荐系统需能够将新加入系统的物品推荐给用户。

9 健壮性
衡量了一个推荐系统抗击作弊的能力。算法健壮性的评测主要利用模拟攻击,尽量使用代价比较高的用户行为(付款),使用数据前,进行攻击检测,从而对数据进行清理

10 商业目标
基于展示广告盈利的网站其商业目标可能是广告展示总数,基于点击广告盈利的网站其商业目标可能是广告点击总数。设置推荐系统时需要考虑最终的商业目标。而使网站使用推荐系统的目的除了满足用户发现内容的需求,也需要利用推荐系统加快实现商业上的指标。

四 推荐系统评测

(1)评测维度:
在评测系统中,一个推荐算法,整体性能可能不好,但是在某种情况下性能比较好,这时候我们需要增加评测维度测试知道在什么情况下性能最好。

(2)评测维度分类:

  • 用户维度:用户统计学信息,活跃度以及是否是新用户
  • 物品维度:物品属性,流行度,平均分以及是否新加入的物品
  • 时间维度:季节,工作日or周末,白天还是晚上
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容