论文粗读“Multi-view clustering via deep concept factorization”

Chang S, Hu J, Li T, et al. Multi-view clustering via deep concept factorization[J]. Knowledge-Based Systems, 2021, 217: 106807.

摘要翻译

最近的研究表明,矩阵分解技术在多视图聚类(MVC)中得到了令人满意的结果。与单层形成的聚类模型相比,深度矩阵分解的聚类模型能够更好地感知数据的层次信息,从而提高了聚类性能。目前,一种特殊的矩阵分解技术被称为概念分解(CF,Concept Factorization)的矩阵分解技术在聚类研究中得到了广泛的关注。然而,最先进的基于CF的聚类方法并不能同时将MVC和深度CF集成到一个统一的框架中。本文提出了一种新的MVC模型来解决这一挑战,该模型通过执行多层CF为MVC带来深度CF来学习层次信息,并推导出一个共同的共识表示矩阵来获取不同视图之间的共享特征。此外,作者对每个视图进行流形正则化的保留,并利用高斯核将原始空间映射到更高的希尔伯特空间,以有效地区分数据点。最后,提出了一种具有理论保证收敛性的有效优化算法来求解所提出的模型。

关于多视图数据的介绍:
In the real world, the information of an object can be collected from diverse channels which yield heterogeneous but interrelated data, i.e., the multi-view data. Multi-view document data has widespread adoption in data analysis tasks, such as clustering and pattern recognition. Different views show the intrinsic characters of the object in different perspectives, combining the information provided by multiple views can obtain comprehensive knowledge, hence improving the performance of a learning strategy. Clustering method which deals with multiple views should adopt the principles of consistency and complementarity to fully take advantage of the datasets for boosting the clustering performance.

改写:Clustering methods based on the deep learning technique are capable of reducing the data dimensionality[cite,深度学习用于表示学习的] and have gained wide acceptance due to their excellent clustering performance [cite,用于聚类任务].

CF的思想:想学习的概念表示为所有数据点的线性组合,而每个数据点用这些概念的线性组合近似表示。更加形式化的表示为:给定数据矩阵X \in R^{m×n},CF的目标是寻找两个非负矩阵W \in R^{n×k}V \in R^{n×k}并且需要满足近似X \approx XWV^T。在当前的定义中,W被称为关联矩阵记录数据的概念,V则是表示对应于数据概念的投影值,被称为表示矩阵。CF的有点主要涵盖两个方面:(1)它允许输入数据包含负条目,这意味着CF与其他矩阵分解技术相比具有更好的兼容性;(2)利用核方法可以在核空间中实现,可以提高特定情况下的聚类性能。

本文的模型,具体来说,MCDCF通过依次分解每个视图的表示矩阵来学习潜在特征,并使用每个视图的最后一层表示矩阵生成一个共同的共识表示矩阵,以满足多视图聚类的一致性原则。

模型记录
  • 基础模型介绍(MCCF)

MCCF
其中,L^{(k)}V^{(k)}的拉普拉斯矩阵。为了保持局部的几何结构,MCCF考虑了manifold regularization。

这里作者为数据中的每个视图都分配了一个视图的权重系数w_k。此外,为了获得一个可靠的V的表示,每个视图的表示矩阵V^{(k)}都进行了如下的标准化的转化:

其中N^{(k)}是一个对角矩阵,有如下的定义:
这种对角矩阵的构造最后形成了一个(innerDim×innerDim)的对角矩阵,该矩阵对角线上的值即为表示矩阵V^{(k) \in R^{n×innerDim}}每一列的值的平方的和,并且每一列相加的值对应放在对角矩阵的对应的位置。同时,每个视图的表示矩阵也进行了相应的标准化操作:

MCCF的核心思想是利用CF技术进行矩阵分解,并通过最小化V和每个V^{(k)}之间的损失来生成共同的共识表示矩阵。

  • MCDCF模型浅析
MCDCF

CF努力通过使用原始数据点的线性组合的概念来寻找数据表示。作者的思路是通过深度的CF来逐层的揭示数据中存在的不同层级的特征表示。更加具体的说,是应用深度CF以分层的方式分解每个表示矩阵V^{(k)}
如果数据中隐藏了h个不同层级的特征,那么层的深度可以设置为h,深度CF的分解过程可以表示为:

为了描述的方便,上述分解的过程中忽略了视图的标记k。通过进行上述表述的DMF,隐藏表示层可以挖掘数据的不同属性,从而揭示层次结构。

在MCDCF中,采用对每个视图的每一层都应用正则化。具体的方法为:通过构造最近邻图,建立流形正则化关系。数据点x_i用图中的一个顶点表示,在顶点之间连接的边表示这些点的p-最近邻。边的权重通过定义 heat kernel来量化:


对于一个特定的表示矩阵V^{(k)},通过使用权值矩阵S来构造流形正则化损失L(V^{(k)})

从形式上可,这个loss的改造主要是根据样本之间的表示的一致性和其对应的边的权重来决定。考虑在k视图中的ij两个样本的特征表示V_{i;:}^{(k)}V_{j;:}^{(k)},分别对应的是表示矩阵V^{(k)}中的第ij项。如果这两个样本的相似性S_{ij}^{(k)}较高,而在实际的表示矩阵V^{(k)}中两个样本差异较大,这时候从优化损失的角度而言,这种正则化方式会强制两个样本表示的差异性会尽量减小。

这里D为一个n×n的对角矩阵。关于这一块的知识(矩阵的迹和对角矩阵之间的运算)还较为薄弱,以后再来填坑。

由此,MCDCF的模型优化目标可以表示为:

和MCCF模型一致,模型主要包含特征表示学习,流形正则化和共识矩阵的学习三个部分。

The Gaussian kernel has many advantages, e.g., it possesses the vigorous capability of data representation since it can map the original input data space to an infinite-dimensional Hilbert space. Another noticeable property of the Gaussian kernel is infinite smoothness , which can alleviate the noise interference.

利用核技巧方法,该模型可以在更高甚至无限维的特征空间中处理CF,而不进行复杂的计算,使线性不可分割的数据点易于区分,从而提高模型在某些数据集上的聚类精度。所以这里在某些数据集的设计上,作者还使用高斯核对数据进行了变换:

该模型的整体算法如下:

大致来看,参数优化的部分使用的是控制变量法分别去更新不同的参数。由于推导较为复杂,在补了相关知识后再来填坑。


作者将DMF的思想带入到CF的过程中,通过每次去概念因子分解表示矩阵(首次为原始特征矩阵X,之后的每一层则为V_i),得出了不同层级的信息。并巧妙的使用了近邻的约束,构造了流行正则化损失进行优化。并使用高斯核的trick对数据进行转换以获得更好的聚类效果。其实可以说是MCCF在深度分解以及manifold regularization的一个升级,思想很巧妙。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容