推荐系统实践-推荐系统实例

本章将首先介绍推荐系统的外围框架,然后介绍推荐系统的框架,并对架构中每个模块的设计进行深入讨论。
外围架构


推荐系统要发挥强大的作用,除了推荐系统本身,主要还依赖于两个条件——界面展示和用户行为数据。目前流行的界面主要有以下共性:
①通过一定方式展示物品;
②很多推荐界面都提供了推荐理由增加信任度;
③提供一些按钮让用户对推荐结果进行反馈

一般来说,需要实时获取的数据存储在数据库和缓存中,而大规模的非实时地存储在分布式文件系统(如HDFS)中。
推荐系统的架构
推荐系统联系用户和物品的方式主要有三种:

推荐系统的核心任务就被拆解成两部分,一个是如何为给定用户生成特征。另一个是如何根据特征找到物品
推荐系统的推荐任务也有很多种:
①将最新加入的物品推荐给用户;
②将商业上需要宣传的物品推荐给用户;
③给用户推荐不同种类的物品
④给用户混合推荐;
⑤对于不同的产品推荐不同新颖度的物品;
⑥考虑到用户访问推荐系统的上下文
推荐系统需要由多个推荐引擎组成,每个推荐系统负责一类特征和一种任务,推荐系统的任务只是将推荐引擎的结果按照一定权重或者优先级合并、排序然后返回
这样有两个好处:
①可以方便地增加/删除引擎,控制不同引擎对推荐结果的影响。对于绝大多数需求,只需要通过不同的引擎组合实现;
②可以实现推荐引擎接的用户反馈
推荐系统的架构

推荐引擎架构主要包括3部分:
①部分A负责从数据库或者缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量。不过如果是使用非行为特征,就不需要使用行为提取和分析模块了。该模块的输出是用户特征向量;
②部分B负责将用户的特征向量通过特征-物品相关矩阵转化为初始推荐物品列表;
③部分C负责对初始的推荐列表进行过滤、排名等处理,从而生成最终的推荐结果
一个特征向量由特征以及特征的权重组成,在利用用户行为计算特征向量时需要考虑以下因素:
①用户行为的种类;
②用户行为产生的时间;
③用户行为的次数;
④物品的热门程度
特征-物品相关推荐
候选集集合的目的是保证推荐结果只包含候选物品集合的物品。比如某些产品要求给用户推荐最近一周加入的新物品,那么候选物品就包括最近一周新加的物品
那么为什么不在过滤模块中将候选集合外的电视剧过滤掉?这是为了防止给物品推荐的物品过于热门。
特征-物品相关推荐模块除了给用户返回物品推荐列表,还需要给推荐列表中的推荐结果产生一个解释列表,表明这个物品是因为哪些特征推荐出来的。下面的代码给出了相关推荐模块的大体工作流程:

def RecommendationCore(featrues, related_table):
    ret = dict()
    for fid, fweitght in featrures.items():
        for item, sim in related_table[fid].items():
            ret[item].weight += sim*fweight
            ret[item].reason[fid] = sim*fweight
    return ret

过滤模块
①用户已经产生过行为物品;
②候选物品以外的物品;
③某些质量很差的物品
排名模块
1.新颖性排名
要准确了解用户是否已经知道某个物品是非常困难的,因此我们只能通过某种近似的方式知道,比如对推荐结果中热门的物品进行降权,比如使用如下公式:


2.多样性
第一种提高多样性的方法是将推荐结果按照某种物品的内容属性分成几类,然后在每个类中都选择该类中排名最高的物品组合成最终的推荐列表。这种方法比较简单直观,但是也有严重缺点。首先选择什么样的内容属性进行分类对结果的影响很大。其次,就算选择了某种类别,但物品是否属于某个类别是编辑确定的,但不一定得到用户的公认。
因此第二种提高推荐结果多样性的方法是控制不同推荐结果的推荐理由出现的次数。
下面的代码根据推荐理由增加推荐结果的多样性,这里输入法recommendations是按照权重从大到小排序的,程序中每次拿出一个推荐结果,如果这个结果已经被用过了,就会对推荐结果的权重除以2降权,最终结果将推荐结果重新按照权重从大到小排序:

def ReasonDiversitu(recommendations):
    reasons = set()
    for i in recommendations:
        if i.reason in reasons:
            i.weight /= 2
        reasons.add(i.reason)
    recommendations = sortByWeight(recommendations)

3.时间多样性
时间多样性主要是为了保证用户不要每天来推荐都看到同样的推荐结果。首先要保证推荐系统的实时性,在用户有新行为时实时调整推荐结果以满足用户最近的需求。第二方面是要在用户没有新的行为时,也要保证推荐结果每天都有变化。要实现这一点,只能通过如下方式:
①记录用户每次登陆推荐系统看到的推荐结果;
②将这些结果发回日志系统;
③在用户登陆时拿到用户昨天及之前看过的推荐结果列表,从当前推荐结果中将用户已经看到的推荐结果降权
4.用户反馈
用户反馈模块主要通过分析用户之前和推荐结果的交互日志,预测用户会对什么样的推荐结果比较感兴趣。在推荐系统的点击率预测中可以用如下特征预测用户u会不会点击物品i:
①用户u相关的特征;
②物品i相关的特征;
③物品i在推荐列表中的位置;
④用户之前是否点击过和推荐物品i具有同样推荐解释的其他推荐结果;
⑤用户之前是否点击过和推荐物品i具有同样推荐引擎的其他推荐结果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容