深度分解机(deepFM)

论文链接:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

1、问题阐述

在推荐系统的CTR预估中,学习用户行为背后复杂的特征交互关系非常重要,例如人们通常在吃饭的时间点下载外卖app比较多,这说明时间和item类别之间是有一定联系的,如果我们在吃饭的时间推荐饿了么,肯定比在其它时间段要更加符合用户的需求。(当然影响用户点击行为的因素非常多,这里只是简单举了一个例子,并不是说所有的用户在吃饭的时间都会想点击外卖app,只是一种统计倾向而已)类似,还有很多其它的特征组合关系,有些特征组合关系是我们拍脑门可以想出来的,上面的时间和item类别,年龄和item类别,性别和item类别。。。但是也有那么一些是我们想不出来的(想不出来意味着不大符合我们平时的认知),例如传统的“啤酒和尿布”关系是隐藏在数据里的。(详细介绍可以参见这篇博文)不大容易被我们人为设计出来作为组合特征。这就需要用到机器学习啦,我们当然希望机器可以帮我们自动学到很多特征。毕竟当原始特征很多的时候,人为设计特征是一件费时也有可能不讨好的事情。

2、FM模型

FM是分解机模型,它将原始特征做embedding后,对两两特征进行组合,得到更高级的特征,模型如下:

其中Field i表示某个特征,共有m个特征,对每个特征进行embedding,之后做两两内积得到FM层,除此之外,FM层还包括单个原始特征。这样看来FM层是包含了两两组合以及单个特征,FM层之后是sigmoid层。

3、DeepFM模型

针对FM模型仅仅可以提取到低级特征组合(最多两层),结合DNN的优势,可以提取到更加高级的特征,这样就不需要人为设计特征了。让我们先看看它的架构吧。

上面是DNN的架构,FM的架构上面已经介绍了哈,DNN的输入和FM的输入是一样的,而且DNN的embedding是上面FM的embedding,只不过DNN之后并不是只有2个特征相连,而是所有特征相连去学习更高级的特征组合。也不是特征之间做内积的形式去组合。(感觉FM其实也可以去学习高级特征组合,但是有一点就是比如要学习三个特征组合的形式,按照FM的思路,是需要把所有的三个特征组合表示出来,等等吧,这样会有很多参数,而DNN这种方式网络可以通过权重学习,得到三个,四个甚至更多的特征组合,这也是DNN的优势所在吧)

最后的模型预测为:

4、模型比较

FNN模型是用FM模型预先训练好的embedding做初始输入,之后接dnn,这样做的缺点之一就是embedding受FM模型的影响比较大,而且这样只是提取了高级特征。另外因为需要预先训练FM模型,所以会增加训练复杂度。

PNN模型是在embedding层和隐藏层之间使用了内积(或者外积,或者2者混合)提取了组合特征,之后和原始的embedding层concat组成隐藏层,之后dnn提取高级特征。而且因为内积的输出和后面隐藏层的所有单元都连接,所以参数会很多。deepFM的FM部分的内积后面只接了一个单元。

谷歌的wide&deep模型,wide&deep模型的wide部分的输入特征是需要人为设计的,例如在app推荐的任务中,可能需要设计一些组合特征。deepFM模型直接把原始特征作为输入,用deep模型和FM自动提取特征,不需要做特征工程。

一个主要的扩展就是将谷歌的wide&deep模型的wide部分用FM代替,后面实验会说明这样效果没有deepFM好。论文中的解释是deepFM模型特征的embedding是共享的,这样学到的embedding会更好一些。也就是说它做扩展实验的时候并没有设成共享的?我个人觉得还有一个原因就是wide部分的交叉特征如果是用FM的话,一般交叉特征出现的频率很低,学到的交叉特征的embedding并不好。

5、实验

数据集:Criteo数据集  4500万用户点击记录

                公司的数据集   10亿用户点击记录

评价方式:AUC 和logloss

结果:

6、总结

总体来讲,个人感觉最大的优势就是不需要人为设计特征,可以自动捕获到高级和低级特征组合,也不需要提前预训练。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容

  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,654评论 2 64
  • 承接前面的《浅谈机器学习基础》、《浅谈深度学习基础》和《浅谈自然语言处理基础》,主要参考了《解析深度学习:语音识别...
    我偏笑_NSNirvana阅读 23,310评论 6 67
  • 摘要 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多...
    蓝鸥科技阅读 1,217评论 1 14
  • ​虽已入秋,但长沙的热度仍未消退! 烈日当头,让人难以承受! 快来看看聪明的人儿如何肆意享受酷暑, 而又巧妙地躲避...
    德迩德语阅读 286评论 0 0
  • 现在太多人习惯用鸡汤来安慰自己,我偏要抛出几个画面温暖这个世界----- 关于他的故事------ 那一年的十一月...
    默语琴阅读 369评论 0 0