Deep Cross-Modal Subspace Clustering with Contrastive Neighbour Embedding
摘要导读
深度跨模态聚类近年来发展迅速,引起了广泛关注。它的目的是从不同模态的深度神经网络中学习一个一致的子空间以此来提升聚类性能。然而,大多数现有的方法在重构跨模态数据时,并不同时考虑每个模态的内在信息和邻居几何结构,不可避免地降低了公共子空间所揭示的簇结构的准确性。
本文提出了一种基于一致近邻嵌入表示的深度跨模态子空间聚类方法(DCSC-CNE)来解决上述问题。该方法可以保持各模态的固有独立性,同时探索不同模态之间的一致信息。此外,我们在提出的深度跨模态子空间聚类框架中引入了对比学习,以突出原始数据的潜在邻居几何和学习有区别的潜在(子空间)表示。通过这种方式,DCSC-CNE集成了一致的内在学习和对比邻域嵌入到一个统一的深度学习框架中。在四个实验数据集上的实验证明了所提方法的有效性。
模型记录
- Consistent-Inherent Learning
传统的一致性学习的目标是学习一个共享的自表示系数(一致性表示)矩阵,来重构各视图。该操作又叫视图自表示学习,一般形式化为如下:
显然,该目标只关注了多个视图之间的一致性表示,忽略了各视图的内在表示信息。为重视各视图之间的差异性,该论文引入了视图的内在表示矩阵。由此,将视图间一致性表示和各视图的内在表示结合起来用于视图的重构:
综合考虑融合的公平性和泛化性,最后用于谱聚类的亲和矩阵如下: - Within-view Reconstruction
不同于传统的通过编码器得到中间表示,在解码的部分,将一致性矩阵和视图内在矩阵都融入在了解码的过程中,即解码器的输入是。重构损失则用于学习这编码和解码的参数: - Contrastive Neighbour Embedding
拉普拉斯特征映射(LE)的本质是指在高维空间中彼此接近的点,应在投影到低维空间的同时保持它们的接近性。这有助于保持数据的局部结构,其相应的损失约束为:
构造邻接图A和进行图嵌入被证明是有益于表示学习的。然而,由于缺乏有监督的标签信息,探索如何使构建的邻接图具有判别性和鲁棒性仍然是一个挑战。
为了学习具有判别性的表示,受【对比拉普拉斯特征映射】的启发,本文提出构造一个邻接矩阵图,并利用基于图的正负样本进行判别结构的学习。具体来说,使用自表示系数矩阵来构造正例图以保持一致性;选择一个随机生成的度归一化拉普拉斯矩阵来作为负例图。
-
正例:
- 负例:
- 总体
# 算法流程
输入:X_1, X_2, 类簇个数f, 训练次数E
输出:网络参数theta, 亲和矩阵C, 聚类结果
1. 初始化总体损失函数中的lamda_1,lambda_2, 以及学习率
2. 通过重构损失预训练各视图的编码器
3. 通过总体损失L训练编码器参数
4. 设置平衡因子和学习率重复执行2-3
5. 得到一致性表示矩阵S和各视图内在表示矩阵D^v
6. 计算得到C并基于C执行谱聚类
7. 给出聚类结果
文中并没交代S和D^v的初始化,应该是随机初始化,然后再进行参数学习的吧。。
比较喜欢第一部分中基于自表示的解耦学习,直接统一了一致性信息和视图特有信息。感觉在实操上可以直接初始化为两个不带偏置的线性层。另外就是对比的近邻嵌入,在组里的一些操作中,我们也做过近邻嵌入的约束,验证了其可行性。这种基于对比的近邻嵌入看上会对学习具有判别性的表示更加友好。