推荐系统遇上深度学习(三十一)--使用自注意力机制进行物品推荐

论文名称:《Next Item Recommendation with Self-Attention》
论文地址:https://arxiv.org/abs/1808.06414?context=cs

在这篇文章中,我们将介绍一种基于self-attention 的序列推荐算法,该算法使用 self-attention 从用户短期的交互记录中学习用户近期的兴趣,同时该模型也使用度量学习的方式保留了用户的长久的兴趣。

整个网络是在度量学习(metric learning)的框架下进行训练,实验表明该方法可以在很大程度上改善序列化推荐的效果。接下来,我们就一探究竟。

1、为什么要用自注意力机制?

推荐系统中,很多情况下我们使用用户的历史交互数据进行推荐,比如点击数据、浏览数据、购买数据等等。使用这些交互数据进行推荐,我们可以把推荐问题当作一个序列问题,即通过历史交互中的物品序列来预测用户下一个可能发生交互的物品。

既然是序列问题,常用的解法主要有RNN和CNN。RNN中,相邻的物品之间的关系可以被捕获,而物品之间的长期关系被保存在隐层状态中;在CNN中,通过卷机核的窗口滑动来捕获物品之间的关系。但是,这两种方式都没有显式地建模物品之间的关系,而建模这种可能存在的关系是很有必要的。

这里写一下个人的理解,不一定是对的,求大佬轻喷。使用自注意力机制可能得到的结果类似于聚类,相似的物品之间相关性权重高,加权的结果使得它们在空间中的距离越来越近。举个例子,假设用户最近看过的10部电影中有5部科幻电影,5部爱情电影。科幻电影之间的相关性较高,极端一点,均为0.2,假设五部电影对应的向量为n1,n2,n3,n4,n5,那么n1 = 1/5(n1+n2+n3+n4+n5),n2 = 1/5(n1+n2+n3+n4+n5),..,n5 = 1/5(n1+n2+n3+n4+n5),最终的结果就是n1=n2=n3=n4=n5。当然上面的只是极端情况,实际中很难实现,不过只是想通过这个例子说明一下个人的理解。

接下来,我们介绍一下模型的原理。

2、模型原理

2.1 问题定义

序列推荐问题的定义如下,假设我们有用户的集合U和物品的集合I,用户的总数为M,物品的总数为N,使用Hu表示用户的交互序列:

我们的目标是在给定user交互序列的情况下,预测user下一个将要进行交互的item。

2.2 使用自注意力机制建模短期兴趣

用户近期的交互行为反映了用户的近期兴趣,这里使用自注意力机制来进行建模。如下图所示:

这里,我们假定使用用户最近的L条记录来计算短期兴趣。如果我们使用X表示整个物品集合的embedding,那么,用户u在t时刻的前L条交互记录所对应的embedding表示如下:

Xut也将作为transformer 中block的输入。接下来,就是自注意力机制的计算过程 :

对于上面的过程不清楚的同学,可以看一下参考之前的博客:https://www.jianshu.com/p/b1030350aadb

这里,作者做了以下几点处理:
1、首先,作者还在计算softmax前先掩掉Q′K′T得到的矩阵对角线值,以避免对角线上物品自身的内积分配过大的权重;
2、其次,作者直接使用输入的Xut与attention score相乘,而不是先计算一个V′,使用V′与attention score相乘;
3、最后,作者在embedding乘上attention权重后,直接将embedding在序列维度求平均,作为用户短期兴趣向量;

除上面的基础结构外,作者还提到了可以增加poistional embeddings,这主要是给输入加入时间信号。时间信号的计算如下:

时间信号的大小跟Q′和K′的形状是一样的,二者可以直接对位相加。

2.3 长期兴趣建模

上面的self-attention模块只使用了近期的L个交互,我们还希望建模用户的长期兴趣,不同于之前的矩阵分解,认为用户和物品属于两个不同的空间,这里我们把用户和物品放入同一个空间中。我们可以认为这是一个兴趣空间,用户的长期兴趣可以表示成空间中的一个向量,而一个物品也可以想象成是一种兴趣,同样映射到这个兴趣空间中的一个向量。那么,如果一个用户对一个物品的评分高的话,说明两个兴趣是相近的,那么它们对应的向量在空间中距离应该较近。这个距离用平方距离计算:

上式中,U是用户的兴趣向量,V是物品的兴趣向量,这与之前定义的X是物品的两种表示。

2.4 模型训练

综合短期兴趣和长期兴趣,模型的整体架构如下:

综合两部分,我们便可以得到用户对于某个物品的推荐分,这里推荐分越低,代表用户和物品越相近,用户越可能与该物品进行交互:

而模型采用pair-wise的训练方法进行训练,即输入一个正例和一个负例,希望负例的得分至少比正例高γ,否则就发生损失。所以损失函数是如下的加入L2正则项的合页损失函数:

好啦,模型部分就介绍到这里啦,总体来说,模型的思想还是比较简单的,综合了用户的短期兴趣和长期兴趣。比较创新的一点就是使用了自注意力机制来表示物品之间的相关性吧。

由这篇论文也可以看出,自注意力机制、Transformer不仅仅在NLP领域得到应用,推荐系统领域也开始尝试,所以学好这个模型是十分必要的呀!

推荐阅读更多精彩内容