论文阅读“Variation Autoencoder Based Network Representation Learning for Classification”

论文引用：Li H, Wang H, Yang Z, et al. Variation autoencoder based network representation learning for classification[C]//Proceedings of ACL 2017, Student Research Workshop. 2017: 56-61.

摘要翻译：

网络表示是许多应用程序的基础，并且在各个领域（例如信息检索，社交网络分析和推荐系统）引起广泛关注。以前的大多数网络表示方法仅考虑问题的不完整方面，包括链路结构，节点信息和部分集成。本研究介绍了一种深度网络表示模型，该模型无缝集成了文本信息和网络结构。该模型通过利用变分自动编码器（VAE）来捕获节点与网络的复杂特征之间的高度非线性关系，该算法是一种深层的无监督生成算法。将通过段落向量模型学习的表示与通过VAE学习的表示进行合并，以获得网络表示，它既保留结构信息又保留文本信息。在基准数据集上进行了全面的实验，发现引入的模型的性能优于最新技术。

Network Representation (Network Embedding) 网络表示（基础表示）
用邻接矩阵是最直观的对网络数据的表示方法。在一个N个节点网络中，一个节点可以用N维向量来表示。对一个N个节点的网络，用 $N*N$ 的矩阵来表示一个网络，两个节点之间有边，则在对应的位置标记1（或者边的权值）。

邻接网络表示.png

邻接矩阵表示一个图，可以将矩阵的每一行，看做一个节点对应的向量，这种表示方法与文本表示中词的One-Hot表示方法。这种表示方法能够完整地表示图数据，准确地表示网络中的链接关系，但是弊端也很明显，对于一个 $N$ 个节点的网络，表达这个网络需要 $N*N$ 的矩阵，并且矩阵过于稀疏，不利于存储大规模网络。

模型展示

model.png

直观来讲，该论文的方法是分别单独学习文本表示和网络结构，然后把两种独立的表示合并在一起。将网络的邻接矩阵和训练好的内容表示作为输入，经过 VAE 得到 embedding 表示。联合训练模型中的VAE的 loss，两个 KL 散度分别计算。

方法解析

首先是得到 $u_i$ 和 $a_i$
$u_i$ 是对应的文本的表示使用的组件是Content2Vec
$a_i$ 是对应的结构信息的表示这里使用的是简单的临接矩阵
拼接得 $x_i$ 喂给VAE，由encoder部分学习两组( $\mu_i$ , $\sigma_i$ )，分别对应 $u_i$ 和 $a_i$ 的信息
其中VAE中encoder和decoder的部分都使用 $K$ 层的MLP结构用于学习

mlp mapping.png

通过将 $z_{i1}$ 和 $z_{i2}$ 连接起来，内容和结构信息可以集成在一起， $y_i$ 是融合后的表示。在此阶段不执行非线性运算。因此，梯度下降法可以安全地应用于优化。（Nonlinear operations are not performed in this phase. Thus, the gradient descent method can be safely applied in optimization.写法可借鉴）

get y.png

4.最后是解码的部分，与所有AE模型一样，都是通过重构输入 $x_i$ ，去最小化损失函数。损失函数的构成对于VAE来说，还是很直观的，生成多少组( $\mu_i$ , $\sigma_i$ )就对应多少个KL损失，因此整体的损失函数为：

obj.png

对于整体的表示是由 $y_i$ 组成的 $N*len(y_i)$ 矩阵。

模型评价

从multi-view learning的角度来说，该模型也展示了一种，使用多视图数据的学习方式，模型图对应于

Connective model.png

很明显，解码之后的各视图数据是融合在一起的，对于生成各视图对应特征来说是不支持的。因此，多视图数据的生成角度无需进行对比，但是在相关工作的介绍中可以添加。

最后编辑于：2020.09.16 16:58:12