深度学习推荐系统-NFM

NFM

0.结论

NFM是FM的神经网络化尝试
NFM用神经网络代替FM中二阶隐向量交叉的操作，相比于FM，NFM的表达能力和特征交叉能力更强
局限性在于结构与PNN近似，特征工程层面的优化尝试几乎穷尽，模型进一步提升的空间非常小

1. 动机

NFM(Neural Factorization Machines)是2017年由新加坡国立大学的何向南教授等人在SIGIR会议上提出的一个模型，传统的FM模型仅局限于线性表达和二阶交互，无法胜任生活中各种具有复杂结构和规律性的真实数据，针对FM的这点不足，作者提出了一种将FM融合进DNN的策略，通过引进了一个特征交叉池化层的结构，使得FM与DNN进行了完美衔接，这样就组合了FM的建模低阶特征交互能力和DNN学习高阶特征交互和非线性的能力，形成了深度学习时代的神经FM模型(NFM)。

那么NFM具体是怎么做的呢？首先看一下NFM的公式：

我们对比FM，就会发现变化的是第三项，前两项还是原来的，因为我们说FM的一个问题，就是只能到二阶交叉，且是线性模型，这是他本身的一个局限性，而如果想突破这个局限性，就需要从他的公式本身下点功夫，于是乎，作者在这里改进的思路就是用一个表达能力更强的函数来替代原FM中二阶隐向量内积的部分。

image

而这个表达能力更强的函数呢，我们很容易就可以想到神经网络来充当，因为神经网络理论上可以拟合任何复杂能力的函数，所以作者真的就把这个 $f(x)$ 换成了一个神经网络，当然不是一个简单的DNN，而是依然底层考虑了交叉，然后高层使用的DNN网络，这个也就是我们最终的NFM网络了：

image

这个结构，如果前面看过了PNN的伙伴会发现，这个结构和PNN非常像，只不过那里是一个product_layer，而这里换成了Bi-Interaction Pooling了，这个也是NFM的核心结构了。这里注意，这个结构中，忽略了一阶部分，只可视化出来了 $f(x)$ ，我们还是下面从底层一点点的对这个网络进行剖析。

2. 模型结构与原理

2.1 Input 和Embedding层

输入层的特征为了方便，文章指定了稀疏离散特征（当然在实际场景的应用中，分为数值特征与分类特征）。Embedding层（在该模型中其实就是一个全连接层）将高维的稀疏特征转化为低维的密集特征表示。

2.2 Bi-Interaction Pooling layer

在Embedding层和神经网络之间加入了特征交叉池化层是本网络的核心创新了，正是因为这个结构，实现了FM与DNN的无缝连接，组成了一个大的网络，且能够正常的反向传播。假设 $\mathcal{V}_{x}$ 是所有特征embedding的集合，那么在特征交叉池化层的操作：

$f _{B I}\left(\mathcal{V}_{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}_{i} \odot x_{j} \mathbf{v}_{j}$

$\odot$ 表示两个向量的元素积操作，即两个向量对应维度相乘得到的元素积向量（可不是点乘呀），其中第 $k$ 维的操作：
$\left(v_{i} \odot v_{j}\right)_{k}=\boldsymbol{v}_{i k} \boldsymbol{v}_{j k}$

这便定义了在embedding空间特征的二阶交互，这个不仔细看会和感觉FM的最后一项很像，但是不一样，一定要注意这个地方不是两个隐向量的内积，而是元素积，也就是这一个交叉完了之后k个维度不求和，最后会得到一个 $k$ 维向量，而FM那里内积的话最后得到一个数，在进行两两Embedding元素积之后，对交叉特征向量取和，得到该层的输出向量，很显然，输出是一个 $k$ 维的向量。

注意，之前的FM到这里其实就完事了，上面就是输出了，而这里很大的一点改进就是加入特征池化层之后，把二阶交互的信息合并，且上面接了一个DNN网络，这样就能够增强FM的表达能力了，因为FM只能到二阶，而这里的DNN可以进行多阶且非线性，只要FM把二阶的学习好了， DNN这块学习来会更加容易，作者在论文中也说明了这一点，且通过后面的实验证实了这个观点。

如果不加DNN， NFM就退化成了FM，所以改进的关键就在于加了一个这样的层，组合了一下二阶交叉的信息，然后又给了DNN进行高阶交叉的学习，成了一种“加强版”的FM。

Bi-Interaction层不需要额外的模型学习参数，更重要的是它在一个线性的时间内完成计算，和FM一致的，即时间复杂度为 $O\left(k N_{x}\right)$ ， $N_x$ 为embedding向量的数量。

2.3 隐藏层

即由多个全连接层构成。不过在此之前，作者还采用了Dropout****和Batch Normalization，原因如下：

Dropout：是神经网络的正则化技术，为了防止过拟合；

Batch Normalization：该层是对输入的每个小批量（min-batch）标准化为零均值的单位方差的高斯分布（zero-mean unit-variance Gaussian distribution）。作者使用BN，是为了避免embedding向量的更新将输入层的分布更改为隐藏层或输出层；

2.4 预测层

通过逻辑回归将隐藏层的向量转变为最后预测的结果。
NFM相比较于其他模型的核心创新点是特征交叉池化层，基于它，实现了FM和DNN的无缝连接，使得DNN可以在底层就学习到包含更多信息的组合特征，这时候，就会减少DNN的很多负担，只需要很少的隐藏层就可以学习到高阶特征信息。NFM相比之前的DNN，模型结构更浅，更简单，但是性能更好，训练和调参更容易。集合FM二阶交叉线性和DNN高阶交叉非线性的优势，非常适合处理稀疏数据的场景任务。在对NFM的真实训练过程中，也会用到像Dropout和BatchNormalization这样的技术来缓解过拟合和在过大的改变数据分布。

下面通过代码看下NFM的具体实现过程，学习一些细节。

3. 代码实现

下面我们看下NFM的代码复现，这里主要是给大家说一下这个模型的设计逻辑，参考了deepctr的函数API的编程风格，具体的代码以及示例大家可以去参考后面的GitHub，里面已经给出了详细的注释，这里主要分析模型的逻辑这块。关于函数API的编程式风格，我们还给出了一份文档，大家可以先看这个，再看后面的代码部分，会更加舒服些。下面开始：

这里主要说一下NFM模型的总体运行逻辑，这样可以让大家从宏观的层面去把握模型的设计过程，该模型所使用的数据集是criteo数据集，具体介绍参考后面的GitHub。数据集的特征会分为dense特征(连续)和sparse特征(离散)，所以模型的输入层接收这两种输入。但是我们这里把输入分成了linear input和dnn input两种情况，而每种情况都有可能包含上面这两种输入。因为我们后面的模型逻辑会分这两部分走，这里有个细节要注意，就是光看上面那个NFM模型的话，是没有看到它线性特征处理的那部分的，也就是FM的前半部分公式那里图里面是没有的。但是这里我们要加上。

所以模型的逻辑我们分成了两大部分，这里我分别给大家解释下每一块做了什么事情：

linear part: 这部分是有关于线性计算，也就是FM的前半部分 $w1x1+w2x2...wnxn+b$ 的计算。对于这一块的计算，我们用了一个get_linear_logits函数实现，后面再说，总之通过这个函数，我们就可以实现上面这个公式的计算过程，得到linear的输出
dnn part: 这部分是后面交叉特征的那部分计算，FM的最后那部分公式f(x)。这一块主要是针对离散的特征，首先过embedding，然后过特征交叉池化层，这个计算我们用了get_bi_interaction_pooling_output函数实现，得到输出之后又过了DNN网络，最后得到dnn的输出

模型的最后输出结果，就是把这两个部分的输出结果加和(当然也可以加权)，再过一个sigmoid得到。所以NFM的模型定义就出来了：

def NFM(linear_feature_columns, dnn_feature_columns):
    """
    搭建NFM模型，上面已经把所有组块都写好了，这里拼起来就好
    :param linear_feature_columns: A list. 里面的每个元素是namedtuple(元组的一种扩展类型，同时支持序号和属性名访问组件)类型，表示的是linear数据的特征封装版
    :param dnn_feature_columns: A list. 里面的每个元素是namedtuple(元组的一种扩展类型，同时支持序号和属性名访问组件)类型，表示的是DNN数据的特征封装版
    """
    # 构建输入层，即所有特征对应的Input()层， 这里使用字典的形式返回， 方便后续构建模型
    # 构建模型的输入层，模型的输入层不能是字典的形式，应该将字典的形式转换成列表的形式
    # 注意：这里实际的输入与Input()层的对应，是通过模型输入时候的字典数据的key与对应name的Input层
    dense_input_dict, sparse_input_dict = build_input_layers(linear_feature_columns+dnn_feature_columns)
    input_layers = list(dense_input_dict.values()) + list(sparse_input_dict.values())
    
    # 线性部分的计算 w1x1 + w2x2 + ..wnxn + b部分，dense特征和sparse两部分的计算结果组成，具体看上面细节
    linear_logits = get_linear_logits(dense_input_dict, sparse_input_dict, linear_feature_columns)
    
    # DNN部分的计算
    # 首先，在这里构建DNN部分的embedding层，之所以写在这里，是为了灵活的迁移到其他网络上，这里用字典的形式返回
    # embedding层用于构建FM交叉部分以及DNN的输入部分
    embedding_layers = build_embedding_layers(dnn_feature_columns, sparse_input_dict, is_linear=False)
    
    # 过特征交叉池化层
    pooling_output = get_bi_interaction_pooling_output(sparse_input_dict, dnn_feature_columns, embedding_layers)
    
    # 加个BatchNormalization
    pooling_output = BatchNormalization()(pooling_output)
    
    # dnn部分的计算
    dnn_logits = get_dnn_logits(pooling_output)
    
    # 线性部分和dnn部分的结果相加，最后再过个sigmoid
    output_logits = Add()([linear_logits, dnn_logits])
    output_layers = Activation("sigmoid")(output_logits)
    
    model = Model(inputs=input_layers, outputs=output_layers)
    
    return model

有了上面的解释，这个模型的宏观层面相信就很容易理解了。关于这每一块的细节，这里就不解释了，在我们给出的GitHub代码中，我们已经加了非常详细的注释，大家看那个应该很容易看明白，为了方便大家的阅读，我们这里还给大家画了一个整体的模型架构图，帮助大家更好的了解每一块以及前向传播。

image

下面是一个通过keras画的模型结构图，为了更好的显示，数值特征和类别特征都只是选择了一小部分，画图的代码也在github中。

nfm

4. 思考题

NFM中的特征交叉与FM中的特征交叉有何异同，分别从原理和代码实现上进行对比分析
答：
从原理上来看:
NFM则是将FM的二次交叉后的向量作为DNN的输入,即引入了非线性变换来提升模型非线性表达能力，又学习到高阶的组合特征。

从代码上来看

采用特征pooling的方式代替DeepFM中二阶特征向量横向连接操作，得到的结果向量由n*k维优化为k维，大大减少训练参数数目。（n为特征域个数，k为embedding向量维度）
采用sum pooling的方式综合二阶特征信息，可能会有信息损失

FM layer样例：

class FM_Layer(Layer):
    def __init__(self):
        super(FM_Layer, self).__init__()

    def call(self, inputs):
        # 优化后的公式为： 0.5 * 求和（和的平方-平方的和）  =>> B x 1
        concated_embeds_value = inputs # B x n x k

        square_of_sum = tf.square(tf.reduce_sum(concated_embeds_value, axis=1, keepdims=True)) # B x 1 x k
        sum_of_square = tf.reduce_sum(concated_embeds_value * concated_embeds_value, axis=1, keepdims=True) # B x1 xk
        cross_term = square_of_sum - sum_of_square # B x 1 x k
        cross_term = 0.5 * tf.reduce_sum(cross_term, axis=2, keepdims=False) # B x 1

        return cross_term

    def compute_output_shape(self, input_shape):
        return (None, 1)

NFM Bi-Interaction Layer样例

class BiInteractionPooling(Layer):
    def __init__(self):
        super(BiInteractionPooling, self).__init__()

    def call(self, inputs):
        # 优化后的公式为： 0.5 * （和的平方-平方的和）  =>> B x k
        concated_embeds_value = inputs # B x n x k

        square_of_sum = tf.square(tf.reduce_sum(concated_embeds_value, axis=1, keepdims=False)) # B x k
        sum_of_square = tf.reduce_sum(concated_embeds_value * concated_embeds_value, axis=1, keepdims=False) # B x k
        cross_term = 0.5 * (square_of_sum - sum_of_square) # B x k

        return cross_term

    def compute_output_shape(self, input_shape):
        return (None, input_shape[2])

5. 参考资料

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266

深度学习推荐系统-NFM

NFM

0.结论

1. 动机

2. 模型结构与原理

2.1 Input 和Embedding层

2.2 Bi-Interaction Pooling layer

2.3 隐藏层

2.4 预测层

3. 代码实现

4. 思考题

5. 参考资料

推荐阅读更多精彩内容