论文引用:Li H, Wang H, Yang Z, et al. Variation autoencoder based network representation learning for classification[C]//Proceedings of ACL 2017, Student Research Workshop. 2017: 56-61.
摘要翻译:
网络表示是许多应用程序的基础,并且在各个领域(例如信息检索,社交网络分析和推荐系统)引起广泛关注。以前的大多数网络表示方法仅考虑问题的不完整方面,包括链路结构,节点信息和部分集成。本研究介绍了一种深度网络表示模型,该模型无缝集成了文本信息和网络结构。该模型通过利用变分自动编码器(VAE)来捕获节点与网络
的复杂特征之间的高度非线性关系,该算法是一种深层的无监督生成算法。将通过段落向量模型学习的表示与通过VAE学习的表示进行合并,以获得网络表示,它既保留结构信息又保留文本信息。在基准数据集上进行了全面的实验,发现引入的模型的性能优于最新技术。
Network Representation (Network Embedding) 网络表示(基础表示)
用邻接矩阵是最直观的对网络数据的表示方法。在一个N个节点网络中,一个节点可以用N维向量来表示。对一个N个节点的网络,用的矩阵来表示一个网络,两个节点之间有边,则在对应的位置标记1(或者边的权值)。
邻接矩阵表示一个图,可以将矩阵的每一行,看做一个节点对应的向量,这种表示方法与文本表示中词的One-Hot表示方法。这种表示方法能够完整地表示图数据,准确地表示网络中的链接关系,但是弊端也很明显,对于一个个节点的网络,表达这个网络需要的矩阵,并且矩阵过于稀疏,不利于存储大规模网络。
模型展示
直观来讲,该论文的方法是分别单独学习文本表示和网络结构,然后把两种独立的表示合并在一起。将网络的邻接矩阵和训练好的内容表示作为输入,经过 VAE 得到 embedding 表示。联合训练模型中的VAE的 loss,两个 KL 散度分别计算。
方法解析
- 首先是得到和
是对应的文本的表示 使用的组件是Content2Vec
是对应的结构信息的表示 这里使用的是简单的临接矩阵 - 拼接得喂给VAE,由encoder部分学习两组(,),分别对应和的信息
其中VAE中encoder和decoder的部分都使用层的MLP结构用于学习
- 通过将和连接起来,内容和结构信息可以集成在一起,是融合后的表示。 在此阶段不执行非线性运算。 因此,梯度下降法可以安全地应用于优化。(
Nonlinear operations are not performed in this phase. Thus, the gradient descent method can be safely applied in optimization.
写法可借鉴)
4.最后是解码的部分,与所有AE模型一样,都是通过重构输入,去最小化损失函数。损失函数的构成对于VAE来说,还是很直观的,生成多少组(,)就对应多少个KL损失,因此整体的损失函数为:
对于整体的表示是由组成的矩阵。
模型评价
从multi-view learning的角度来说,该模型也展示了一种,使用多视图数据的学习方式,模型图对应于很明显,解码之后的各视图数据是融合在一起的,对于生成各视图对应特征来说是不支持的。因此,多视图数据的生成角度无需进行对比,但是在相关工作的介绍中可以添加。