推荐系统Embedding

简单来说，Embedding就是用一个低维的向量表示一个物体，可以是一个词，或是一个商品，或是一个电影等等。

在传统机器学习模型构建过程中，经常使用one hot encoding对离散特征，特别是ID类特征进行编码，但由于one hot encoding的维度等于特征的总数，比如阿里的商品one hot encoding的维度就至少是千万量级的，而且有的特征还会增量更新，所以这样的编码方式得到的特征向量是非常稀疏的，甚至用multi hot encoding对ID特征编码也会是一个非常稀疏的向量。

如果深度学习模型输入大量的稀疏特征，高维稀疏特征易引发“维度灾难”，使空间距离很难有效衡量，另外高维经常使参数数量变得非常多，计算复杂度增加，也容易导致过拟合；稀疏容易造成梯度消失，导致无法有效完成参数学习。因此通过Embedding将低维向量对物体进行编码喂给DNN很好的解决了前面的问题。

Embedding特点：

表达能力丰富

相似的特征，embedding相似度也高

embedding数学运算，woman + king - man = queen

应用方便

相比于高维稀疏特征，embedding参数数量少，节约存储、计算更快

预训练的Embedding向量，与其他特征向量拼接，一同输入模型

通过annoy/faiss等框架，便于实现新的召回策略，I2I，U2I等

1 矩阵分解

矩阵分解，直观上来说就是把原来的 m × n m \times n m×n大矩阵，近似分解成 m × k m \times k m×k和 m × k m \times k m×k的两个小矩阵，在实际推荐时使用两个小矩阵进行计算。基于矩阵分解的推荐算法的核心假设是用隐语义（隐变量）来表达用户和物品，他们的乘积关系就成为了原始的元素。隐因子数量 k 的选取要远远低于用户和电影的数量，大矩阵分解成两个小矩阵实际上是用户和电影在 k 维隐因子空间上的映射，这个方法其实是也是一种 “降维”过程，同时将用户和电影的表示转化为在这个 k 维空间上的分布位置，电影和用户的距离越接近表示用户越有可能喜欢这部电影

从机器学习的角度，电影评分预测实际上是一个矩阵补全的过程，原来的大矩阵必然是稀疏的，即有一部分有评分，有一部分是没有评过分的，所以整个预测模型的最终目的是得到两个小矩阵，然后通过这两个小矩阵的乘积来补全大矩阵中没有评分的位置。所以对于机器学习模型来说，问题转化成了如何获得两个最优的小矩阵。因为大矩阵有一部分是有评分的，那么只要保证大矩阵有评分的位置（实际值）与两个小矩阵相乘得到的相应位置的评分（预测值）之间的误差最小即可，目标函数可以是均方误差等。

2 word2vec

word2vec是浅层神经网络模型，有两种网络结构，分别为CBOW和skip-gram。

CBOW 的目标是根据上线文出现的词语来预测当前词生成的概率，而skip-gram是根据当前词来预测上下文词语的生成概率。两者都可以表示成由输入层、映射层、输出层组成的神经网络。

输入层每个词由one-hot编码表示，词汇表中有N个单词，每个词为一个N维向量，单词出现的位置为1，其余位置为0。

映射层包含K个节点，映射层取值可以由N维输入向量和输入与映射层间的 N ∗ K N * K N∗K维的权重计算得到，CBOW中还需要将各个输入向量经权重计算出的映射层数值求和。

输出层向量也是N维的，可以由映射层以及映射层与输出层之间的 K ∗ N K * N K∗N维矩阵计算得到，输出层向量应用softmax函数可以计算出每个单词生成的概率。

p ( y = w n ∣ x ) = e x n ∑ k = 1 N e x k p(y=w_n|x) = \frac{e^{x_n}}{\sum_{k=1}^{N}{e^{x_k}}} p(y=wn∣x)=∑k=1Nexkexn

通过方向传播算法训练神经网络权重从而使得语料库所有word的整体生成概率最大化。

但是softmax存在归一化项的缘故，需要对词汇表的所有单词进行遍历，迭代过程比较缓慢，后续有hierarchical softmax和negative sampling改进方法。

输入向量和输入与映射层间的 N ∗ K N * K N∗K维的矩阵、映射层与输出层之间的 K ∗ N K * N K∗N维矩阵存储的就是每个word的embedding。

3 Item2Vec

相比于Word2vec利用“词序列”生成词Embedding。Item2vec利用“物品序列”构造物品Embedding。其中物品序列是由指定用户的浏览购买等行为产生的历史行为序列。

其中 V V V代表总item个数， N N N代表item向量的维度，即隐层神经元个数.

Item2vec和Word2vec的唯一不同在于，Item2vec没有使用时间窗口的概念，认为一个序列中任意两个物品都相关。

item2vec是为了得到item embedding 和 user embedding，然后利用用户向量和物品向量的相似性，在召回层快速得到候选集合。

item embedding: 收集用户行为序列，采用word2vec思想，生成每个item的Embedding

user embedding: 由历史item embedding AVG pooling、 SUM pooling 或聚类得到。

4 双塔

4.1 DSSM

通过query和document的点击曝光日志，用DNN把query和document表达为低维语义向量，并通过余弦相似度来计算两个语义向量的距离，最终训练出语义相识度模型。

该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低维语义Embedding向量。可用于做I2I的召回。

4.2 YouTube 双塔

YouTube双塔模型分别用MLP网络对用户特征和视频特征分别进行了Embedding，在最后的softmax层前，用户特征和视频特征之间没有任何交互，这就形成了两个独立的塔。

用户塔和视频塔通过接受用户侧/视频侧相关的特征向量，经过MLP内的多层神经网络生成一个多维的稠密向量，这个稠密向量其实就是用户/视频的Embedding向量。

线上用户部分embedding实时计算，线下计算好item的embedding，灌入到annoy或者faiss，直接检索就可以获取结果，常用作U2I召回。

4.3 Capsule 胶囊网络

胶囊网络通过“vector in vector out”的传递方案来代替传统神经网络的“scalar in scalar out”（简单来说，神经元的标量输入替换为向量输入，此时这个神经元就是胶囊💊。）

天猫的mind召回基于capsule routing机制设计了一个multi-interest extractor layer，用于聚类历史行为和抽取多样化兴趣。Youtube DNN只使用一个vector来表示一个用户，而MIND使用多个vectors，自适应地将用户历史行为聚合成K个用户表示向量来表示用户的多样化的兴趣。

MIND模型的输入为用户相关的特征，输出是多个用户表征向量，主要用于召回阶段使用。输入的特征主要包括三部分，即用户自身相关特征（user，age…）、用户行为特征（如浏览过的商品id）和target item特征。所有的id类特征都经过Embedding层，其中对于用户行为特征对应的Embedding向量进行average pooling操作，然后将用户行为Embedidng向量传递给Multi-Interest Extract layer（生成interest capsules），将生成的interest capsules与用户本身的Embedding concate起来经过几层全连接网络，就得到了多个用户表征向量，在模型的最后有一个label-aware attention层。在线上使用的时候同样应该采用类似向量化召回的思路，选取TopN。

5 Graph

Graph Embedding也是一种特征表示学习方式，借鉴了Word2Vec的思路。在Graph中随机游走生成顶点序列，构成训练集，然后采用Skip-gram算法，训练出低维稠密向量来表示顶点。图模型生成的节点Embedding向量一般包含图的结构信息及附近节点的局部相似性信息。

5.1 DeepWalk

主要思想是在由物品组成的图结构上进行随机游走，产生大量物品序列，然后将这些物品序列作为训练样本输入Word2Vec进行训练，得到物品的Embedding

步骤如下：

收集用户行为序列

基于这些用户行为序列构建了物品关系图。

图中的边是由用户行为产生的，比如为用户M先后购买了物品A和物品B，会产生了一条有向边由A指向B。其他的有向边也是同样的道理，如果有多个有A指向B的有向边，那么该条边的权重被加强。通过这样的方法将所有用户行为序列都转换成物品相关图中的边后，就得到全局的物品相关图。

采用随机游走的方式随机选择起始点，重新产生物品序列。

物品序列作为训练样本输入Word2Vec进行训练

5.2 Node2Vec

通过调整随机游走权重的方法使Graph Embedding的结果更倾向于体现网络的同质性或结构性。

同质性指距离相近节点的Embedding应尽量近似，例如 u u u与 s 1 , s 2 , s 3 , s 4 s_1, s_2, s_3, s_4 s1,s2,s3,s4。为了使Graph Embedding的结果能够表达网络的“结构性”，在随机游走过程中，需要让游走的过程更倾向于BFS，因为BFS会更多地在当前节点的邻域中游走遍历，相当于对当前节点周边的网络结构进行一次“微观扫描”。当前节点是“局部中心节点”，还是“边缘节点”，或是“连接性节点”，其生成的序列包含的节点数量和顺序必然是不同的，从而让最终的Embedding抓取到更多结构性信息。

结构性指的是结构上相似的节点Embedding应尽量近似，例如 u u u与 s 6 s_6 s6。为了表达“同质性”，需要让随机游走的过程更倾向于DFS，因为DFS更有可能通过多次跳转，游走到远方的节点上，但无论怎样，DFS的游走更大概率会在一个大的集团内部进行，这就使得一个集团或者社区内部的节点的Embedding更为相似，从而更多地表达网络的“同质性”。

node2vec算法通过节点间的跳转概率控制BFS和DFS的倾向性

改进的随机游走有两个参数 p , q 。假设刚游走完边 ( t , v )，现在在节点 v 要根据转移概率 πvx选择下一个节点 x 。

其中， d t x d_{tx} dtx指的是节点 t t t到节点 x x x的距离，只有3种情况，如果又回到顶点t，那么为0；如果x和t直接相邻，那么为1；其他情况为2。参数 p p p和 q q q共同控制着随机游走的倾向性。参数 p p p被称为返回参数， p p p越小，随机游走回节点t的可能性越大，node2vec就更注重表达网络的同质性，参数 q q q被称为进出参数， q q q越小，则随机游走到远方节点的可能性越大，node2vec更注重表达网络的结构性，反之，当前节点更可能在附近节点游走。

node2vec所体现的网络的同质性和结构性在推荐系统中可以被很直观的解释。同质性相同的物品很可能是同品类、同属性，或者经常被一同购买的商品，而结构性相同的物品则是各品类的爆款、各品类的最佳凑单商品等拥有类似趋势或者结构性属性的商品。毫无疑问，二者在推荐系统中都是非常重要的特征表达。由于node2vec的这种灵活性，以及发掘不同图特征的能力，甚至可以把不同node2vec生成的偏向“结构性”的Embedding结果和偏向“同质性”的Embedding结果共同输入后续的深度学习网络，以保留物品的不同图特征信息。

5.3 EGES

EGES利用DeepWalk生成的graph embedding思想，收集用户的点击历史，将两个连续的 Item 用一个有向边连接.同时为了解决冷启动问题，引入了更多补充信息（shop ID, category ID, …），从而使没有历史行为记录的商品获得Embedding。

eges

在生成物品 Embedding 的过程中，考虑到不同种类的 Side Information 对 Embedding 的贡献是不同的，为了表示不同类型的 Side Information 在被聚合时会具有不同的贡献，引入了attention机制，对每个Side Information embedding加上了权重。图中的Hidden Representation层就是对不同Embedding进行加权平均操作的层，得到加权平均后的Embedding向量后，再直接输入softmax层。

5.4 Pinsage

pinsage是GCN在推荐领域的成功应用，PinSage模型使用了随机游走和图卷积，捕获到了图结构的特征以及节点的特征，以生成节点的嵌入表示。

pinsag

PinSage算法，通过采样节点的邻居并动态地从采样邻居构建计算图，实现了有效的局部的卷积。这些动态形成的计算图说明了如何围绕一个节点进行局部的卷积，并且在训练时不需要在整张图上进行操作。

论文中涉及到的数据为20亿图片（pins），10亿画板（boards），180亿边（pins与boards连接关系）。如作者所言，PinSage是“random-walk-based GCN”。论文目的是通过PinSage算法学习节点的高效表达（embedding），并以此为基础，后续利用K临近等方法进行推荐。

参考：

推荐算法之矩阵分解

深度学习中不得不学的Graph Embedding方法

EGES：阿里在图嵌入领域中的探索

《Graph Convolutional Neural Networks for Web-Scale Recommender Systems》

原文链接：https://blog.csdn.net/qq_40006058/article/details/123314370

最后编辑于：2022.06.16 09:21:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 161,192评论 4赞 369
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,186评论 1赞 303
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,844评论 0赞 252
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,471评论 0赞 217
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,876评论 3赞 294
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,891评论 1赞 224
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,068评论 2赞 317
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,791评论 0赞 205
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,539评论 1赞 249
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,772评论 2赞 253
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,250评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,577评论 3赞 260
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,244评论 3赞 241
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,146评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,949评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,995评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,812评论 2赞 276

推荐系统Embedding

推荐阅读更多精彩内容