Learning Hierarchical Graph Neural Networks for Image Clustering

摘要

我们提出了一个层次图神经网络（GNN）模型，该模型学习如何使用一组图像训练集，将一组图像聚类成未知数量的身份，该训练集使用属于不相交身份集的标签进行注释。我们的分层 GNN 使用一种新颖的方法来合并在层次结构的每个级别预测的连接组件，以在下一个级别形成一个新图。与完全无监督的层次聚类不同，分组和复杂性标准的选择自然源于训练集中的监督。与当前基于 GNN 的聚类算法相比，由此产生的方法 Hi-LANDER 的 F 分数平均提高了 49%，归一化互信息 (NMI) 提高了 7%。此外，最先进的基于 GNN 的方法依赖于单独的模型来预测链接概率和节点密度，作为聚类过程的中间步骤。相比之下，我们的统一框架将计算成本降低了三倍。我们的训练和推理代码已发布 1。

一、简介

聚类是无监督学习的支柱。它包括根据手动指定的标准对数据点进行分组。在没有任何监督的情况下，问题是自我参照的，结果由分组标准的选择来定义。不同的标准产生不同的解决方案，没有独立的验证机制。即使在给定的标准内，聚类通常也会根据复杂性度量产生多个解决方案，并且引入单独的模型选择标准以得出唯一的解决方案。无监督聚类方法的一大分支遵循分层/凝聚框架 [41,42,44]，它给出了具有不同数据粒度的聚类分区树，但它们仍然需要最终单个分组的模型选择标准。我们希望从数据中学习它们，而不是设计复杂性和分组标准。2 显然，这不是我们希望聚类的数据，因为我们没有任何注释。相反，它是一组不同的训练数据集，即元训练集，其中给出了集群标签，对应于与测试集中预期的身份不相交的身份。例如，测试集可能是特定用户的未标记照片集合，其中存在我们希望发现的一组真实的离散身份，比如他们的家庭成员。虽然这些家庭成员以前从未见过，但该系统可以在训练期间访问不同的照片集，并标记不同的身份。我们的目标是利用后者标记的训练集来学习如何对具有未知数量的不同身份的不同测试集进行聚类。这与“开放集”或“开放宇宙”分类密切相关 [40, 26]。

我们提出了第一个使用图神经网络（GNN）的分层/凝聚聚类方法。 GNN 是学习如何进行聚类的自然工具 [51、57、56]，因为它们提供了一种使用训练数据预测图连接性的方法。在我们的例子中，该图描述了测试数据之间的连接性，连接的组件最终决定了集群。

我们的分层 GNN 使用一种新颖的方法来合并在层次结构的每个级别预测的连接组件，以在下一个级别形成新图。我们使用 GNN 来预测每个级别的连通性，并迭代直到收敛。虽然在无监督凝聚聚类中，当所有聚类合并到单个节点 [42, 44] 时，或者当达到任意模型复杂度标准的任意阈值时，就会发生收敛，在我们的例子中，收敛是由训练集驱动的，并且当 GNN 没有向图中添加更多边时，就会发生这种情况。无需定义任意模型选择标准。相反，聚类过程的“自然粒度”由训练集中的基本事实以归纳方式确定。与使用 GNN [51, 57, 56] 的先前聚类工作不同，我们执行全图推理以联合预测两个属性：边缘的链接概率和节点的密度，定义为共享节点的相似顶点的比例节点邻域内的相同标签 [14, 3, 56]。密度在节点 [3, 56] 之间建立了相对顺序，然后用于指导连接。位于两个 ground-truth 集群边界的节点，或者其大多数邻居属于不同类别的节点，往往具有低密度，因此对其邻居的链接概率的期望值也较低。先前的方法将边缘连通性预测为众多采样子图上的节点属性 [51, 56]；我们的直接推断完整图并将连通性预测为边的属性。此外，先前的方法需要针对链接概率和节点密度这两个属性的单独模型，而我们的方法是联合推断它们。这是有益的，因为由基本事实定义的两个属性之间存在很强的相关性。联合模型还可以实现卓越的效率，从而实现原本难以处理的分层推理。与两个单独的模型相比，我们实现了从 256s 到 36s 的加速，如表 1 所示。

在准确性方面，与最先进的基于 GNN 的聚类方法相比，我们的方法在 F 分数上平均提高了 49%，从 0.390 到 0.585，在 NMI 上平均提高了 7%，从 0.778 到 0.836。 56, 51] 在人脸和物种聚类基准上，如表 3 所示。此外，我们对未标记数据的聚类生成的伪标签可用作正则化机制，将人脸验证误差降低 14%，如图所示在表 4 中，与最先进的聚类方法相比，从 0.187 到 0.159，使我们能够在 0.136 处接近完全监督训练的性能。

在下一节中，我们将在先前相关工作的背景下总结我们的贡献。在第 3 节中，我们介绍了我们论文的技术创新，在第 4 节中，我们详细介绍了我们的实验结果。我们将在第 5 节中讨论我们方法的失效模式和局限性。

2. 相关工作和贡献

无监督视觉聚类传统的无监督聚类算法利用对象之间相似性的概念，例如 K-means [27] 和分层凝聚方法 [32、41、37]。 [5] 扩展了层次凝聚聚类 (HAC) [41]，其距离基于节点对采样概率。基于持久同调[61]和奇异扰动理论[33]的方法处理尺度选择问题。 [14,3,8]利用密度概念定义为邻域内相似节点的比例。谱聚类方法 [33, 17, 47] 通过特征分解通过亲和矩阵的低维嵌入来近似图切割。 Graclus [13] 提供了一种具有多级加权图切割的谱聚类的替代方案。 H-DBSCAN [8] 移除了 [14] 中的距离阈值调整。 FINCH [39] 提出了第一个邻居启发式并生成集群的层次结构。最近的无监督方法 [23, 24] 利用深度 CNN 特征。 [60] 提出了一种 Rank-Order 距离测量。我们的分层设计与 [39] 最相关，然而，我们没有采用启发式方法来链接每个节点的第一邻居进行边选择，这容易出错并且在处理大规模复杂集群结构方面能力有限，我们使用可学习的 GNN 模型。

监督视觉聚类基于监督图神经网络的方法 [51, 57, 59, 57, 56] 在 k-NN 图上执行聚类。与这些仅产生单个分区的方法相比，我们的方法生成集群分区的层次结构，并使用从“元训练”集的自然粒度中学习到的收敛标准来处理看不见的复杂集群结构。与需要两个单独的模型来执行边缘连接和节点密度估计的 [56] 相比，我们的方法使用具有更高准确性和效率的单个模型联合预测这两个量（表 1）。此外，[51, 56] 将链接估计为子采样图上的节点属性，而我们通过全图推理将其估计为具有自然并行化的边缘属性，并显着减少运行时间（表 5）。 [1] 使用两步过程，首先使用 GNN 优化视觉嵌入，然后运行自上而下的分裂聚类，测试仅限于小数据集。相比之下，我们的方法将聚类作为图边选择过程来执行。

分层表示分层结构也已在许多视觉识别任务中得到广泛研究 [34, 21, 28, 53, 29, 15, 31, 22]。在本文中，我们的层次结构由多个 k-NN 图形成，这些图通过聚类和节点聚合反复构建，这些图是从元训练集中学习的。在图表示学习文献[58,9,4,19,18,25]中也探索了层次表示。在那里，重点是学习更强的特征表示，以将图 [58] 或输入节点 [18] 分类为一组封闭的类标签。然而，我们的目标是从一个元训练集中“学习”聚类，这些元训练集的类与测试时的类不相交。

视觉理解中的图形神经网络 GNN 在处理复杂图形结构方面的表现力被证明有利于许多视觉学习任务 [20, 16, 10, 50, 45, 12, 54, 55, 11, 6, 52]。 [16] 对相邻节点的嵌入进行采样和聚合。 [45] 通过附加注意进一步推进 [16]。 [10] 使用基于 [16] 的批量训练方案来降低计算成本。 [50] 通过最大池化执行具有边缘卷积和特征聚合的节点分类。我们的方法与 [50] 的不同之处在于我们使用了一个统一的模型，该模型通过两个监督信号共同学习节点密度和边缘链接。此外，我们的 GNN 学习了分层凝聚过程的边缘选择和收敛标准。

贡献我们在基于 GNN 的聚类中提出了第一个层次结构。我们的方法部分受到 [39] 的启发，将图细化为由子集群形成的超级节点，并在超级节点图上循环运行聚类，但不同之处在于我们使用学习的 GNN 来预测每个节点的子集群循环步骤而不是任意的手动分组标准。在收敛时，我们将超级节点上的预测集群标签从顶层图追溯到原始数据点，以获得最终的集群。

我们的方法基于训练集中地面实况标签建立的粒度级别收敛到一个集群。尽管身份与测试集不同，但它们足以在推理时隐式定义聚类的复杂性标准，而不需要单独的模型选择标准。

为了有效地运行 GNN 模型的多次迭代，我们设计了一个基本模型，该模型近似于标签感知链接概率和共享相同标签的相似节点的密度。密度对于额外的正则化和细化边缘选择很有用。我们将此基本模型称为我们的链接近似和密度估计细化（LANDER）模块。最后，我们表示我们的层次聚类方法 Hi-LANDER，图 1 说明了它的结构。

我们方法的关键创新有两个方面：1）我们产生了集群分区的层次结构，而不是 [57、51、56] 的单个平面分区； 2）我们执行全图推理来联合预测节点和边的属性，而之前的 GNN 方法使用子图推理

节点和边缘属性预测的独立模型。与现有的基于 GNN 的方法相比，这些创新共同负责将聚类性能平均提高 49% 的 F 分数和 7% 的 NMI。

3. 方法论

3.1。使用 k-NN 图进行聚类

形式上，给定一组 N 幅图像 D = {Ii}Ni=1 及其对应的视觉嵌入 F = {fi }Ni=1，我们首先构建一个亲和图 G = {V,E}，其中 |V| = N，通过 w.r.t. 确定的 k-最近邻。余弦相似度，即归一化视觉嵌入的内积。每张图像（例如一张人脸裁剪）都需要一个对象进行聚类，并表示图中的一个节点，节点特征是它的视觉嵌入 fi。边将每个节点连接到它的 k 个邻居。根据 [14, 8, 3, 39, 51, 56, 35] 中的聚类范式，函数 φ 将亲和图 G 和节点特征 F 作为输入，并生成边子集 E' ⊂ E，即 E' = φ(G, F)。生成的图 G' = {V,E'} 然后被拆分为连接的组件，每个组件对应于一个节点集群。我们的方法建立在这种基于 k-NN 图的聚类范式之上。

3.2.对 Hi-LANDER 的分层泛化

为了对数据集中聚类的自然粒度级别进行建模，我们提出了对上述基于单级 k-NN 的聚类范式的分层泛化。给定一组初始视觉嵌入 F 和一个小的固定值 k,3，我们迭代生成一系列图 Gl = {Vl,El} 和相应的节点特征 Hl = {hi}，其中 i = 1... |Vl|并且 l = 1...，使用基本聚类函数 φ 和聚合函数 ψ。算法 1 总结了所提出的分层泛化过程。

首先，我们将 G1 定义为第 3.1 节中的 G 和 H1 = {fi}。函数 φ 执行以下操作

El′=φ(Gl,Hl), (1)

将第 l 层的节点特征和 k-NN 图作为输入，并生成选定的边子集 El'。结果，图 G'l = {Vl , El' } 被分割成多个连通分量。我们将 G' 中的连通分量集定义为 {c(l)}|Vl+1|，其中 c(l) 是第 i 个元素。 lii=1 i 为了生成 Gl+1，我们得到 Vl+1、Hl+1 和 El+1，如下所示。首先，我们将 Gl+1 中的第 i 个节点 v(l+1) 定义为表示连通分量 c(l) 的实体。接下来，我们通过聚合函数 ψ 生成新的节点特征向量，它执行 Hl+1 =ψ(Hl,G′l)，

(2) 将每个连通分量 c(l) 中的节点特征分别聚合为单个特征向量。最后，我们通过在 Hl+1 上搜索 k 个最近邻居并将每个节点连接到它的 k 个邻居来获得 El+1。

当不再添加新边时，生成收敛，即 El′ = ∅。我们将 L 定义为收敛序列的长度。对于最终的集群分配，从 GL 开始，我们将集群标识 (ID) i 分配给连接的组件 c(L)，它将 ID i 传播到其所有节点 i {v(L)|v(L) ∈ c( L)}。然后，每个 v(L) 将其标签 jjii 传播到上一次迭代的相应连通分量 c(L-1)。这个 ID 传播过程最终会为 V1 中的每个节点分配一个集群 ID，并将这个分配作为最终的预测聚类。

在接下来的部分中，我们将描述基本集群函数 φ、聚合函数 ψ 的设计以及我们如何使用元训练集学习整个 Hi-LANDER 模型。我们将 LANDER 称为我们的底层单级模型，类似于 Hi-LANDER 的单次迭代。

3.3.实现聚类函数 φ

为了实现高精度，我们将 φ 设计为可学习的 GNN 模型，用于在监督设置中进行聚类以处理复杂的集群结构，其中 V i1k 中的每个节点 v 都带有一个集群标签 i，但仅在元训练集中。与无监督聚类方法不同，我们没有设计明确的分组标准，而是从数据中学习。最先进的监督聚类方法 [51, 56] 表明密度和链接信息是学习 GNN 模型的有效监督信号，我们同时使用它们。然而，与之前的工作不同，为了提高效率和准确性，我们使用单个图形编码器产生的嵌入来共同预测这两个量。然后，链接和密度估计通过一个图解码步骤来确定边缘连通性，从而确定聚类预测。下面详细介绍我们的 LANDER 设计。图编码对于每个具有相应输入特征 hi 的节点 vi，一堆图注意网络 (GAT) [45] 层将每个 hi 编码为新特征或嵌入 h′i。但总的来说，我们发现替代编码器（例如，香草图卷积网络层）产生相似的性能（见补充）。

密度和链接的联合预测对于 E 中的每条边 (vi , vj )，我们将从编码器获得的源节点和目标节点特征连接为 [h′i , h′j ]，其中 [·,·] 是连接算子.然后，我们将其输入到多层感知器 (MLP) 层，然后进行 softmax 变换以产生链接概率 p = P (y = y )，即估计 i ijij 这条边连接两个共享节点的概率同一个标签。我们还使用该值来预测节点伪密度估计 d^，它测量其邻域中 i 个同类节点的相似性加权比例。

为此，我们首先将节点 vi 和 vj 之间的相似性 aij 量化为它们各自节点特征的内积，即 aij = ⟨hi , hj ⟩。随后，我们将相应的边缘系数计算为 e^ij 为

该估计器旨在逼近真实伪密度 di，它是通过使用真实类标签简单地将 Eq.4 中的 e^ij 替换为 eij = 1(yi = yj)−1(yi ̸= yj) 获得的，其中 1是指示函数。通过构造，只要最相似的邻居共享标签，di 就很大；否则，它很小。重要的是，通过 pij 用 e^ij 来逼近 di，由此产生的联合预测机制减少了训练期间预测头的参数（参见下面的 3.5 节），从而使两个任务相互受益。

图解码一旦我们获得链接概率和节点密度估计，我们通过以下解码过程将它们转换为最终集群。先前的方法依赖于类似的解码步骤 [3, 56]；然而，在这里我们定制这个过程以结合我们的联合密度和链接估计。最初我们从 E′ = ∅ 开始。给定 e^ij, d^, p 和边连接阈值 p，我们首先定义节点 vi 的候选边集 E(i) 为

并将 (vi , vj ) 添加到 E ' 。我们强调边缘连接阈值 pτ 的选择是一个超参数调整过程，仅在从元训练集拆分出来的验证集上进行。它在元训练后保持不变。这与无监督凝聚聚类中的任意参数选择不同，其中选择标准可能需要在不同的测试集之间改变。

此外，E(i) 的定义确保每个具有非空 E(i) 的节点 vi 都向 E ' 添加一条边。另一方面，每个 E (i) 为空的节点都成为没有出边的峰值节点。同时，条件 di ≤ dj 在建立连接时引入了归纳偏差。由于具有低密度的节点往往是那些具有与其他类重叠的邻域的节点，或者是多个类之间边界上的节点，因此与这些节点的连接通常是不可取的。在完全通过每个节点后，E' 形成一组连接的组件 G'，作为指定的集群。

3.4.实现聚合函数ψ

回想一下，我们将 c(l) 表示为 G'l 中的第 i 个连通分量。为了构建 Gl+1 = {Vl+1, El+1}，我们首先将 Gl 中的 c(l) 转换为 Vl+1 中的节点 v(l+1)。我们为新节点定义两个节点特征向量，即身份特征h̃(l+1)和平均特征h̄(l+1)为

其中 mi = argmax (l) d^ ，表示连通分量 c(l) 的峰值节点索引。此外，在第一层中，h̃ (0) = h ̄ (0) = fi ，其中 fi 是视觉嵌入特征。

节点v(l+1)的基簇函数φ的下一级输入特征是峰值特征和平均特征的串联，即hl+1 = [h̃(l+1),h̄(l +1）]。我们凭经验发现，直接使用其中一个特征会产生与某些验证集上的串联相似的性能，我们将其保留为超参数。身份特征 h̃(l) 可用于识别层次结构中的相似节点，而平均特征 h̄(l) 提供集群中所有节点的信息概览。

3.5.海兰德学习

因为超级节点的合并特征 h̃(l+1) 和 h̄(l+1) 总是与上一层的节点特征 h(l) 位于相同的视觉嵌入空间内，因此 GNN 模型参数相同在学习元训练集的集群分布的自然粒度时，可以跨多个层次结构共享。

分层训练策略给定k和ground truth标签，我们可以确定分层聚合收敛的级别L。因此，我们根据算法 1 中描述的算法构建图序列 {Gl}，唯一的区别是我们在所有级别都使用真实边缘连接 {E'gt}

els 和因此 l 的真实中间簇 {G'gt }

图结构。我们初始化 LANDER，并在所有中间图 {Gl} 上对其进行训练。在一个 epoch 中，我们遍历每个 Gl，在图 {Gl} 上执行前向传递，计算接下来定义的损失，然后使用反向传播更新模型参数。

训练损失 Hi-LANDER 模型使用由下式给出的复合损失函数进行训练

第一项 Lconn 通过平均每条边连接损失提供对成对链接预测的监督

这里，ground truth label qij = 1(yi = yj) 表示由边缘连接的两个节点是否属于同一个集群，并且可以如前所述在所有级别上计算（类似于从qij 值）。同时，第二项 Lden 表示由下式给出的邻域密度平均损失

在训练期间，Lconn 和 Lden 均在所有级别的数据中进行平均。请注意，先前的工作使用概念相关的损失函数来训练基于 GNN 的编码器 [56]；然而，我们的框架是唯一一个以复合方式这样做的端到端框架，无需引入单独的网络或额外的参数。

4. 实验结果

我们在涉及图像人脸、视频人脸和自然物种数据集的聚类基准上评估 Hi-LANDER。首先，我们展示了我们的方法对提前停止的敏感性，并说明它仅用于降低复杂性而不影响准确性。我们还说明了模型组件的消融实验。然后，我们在相同训练测试和未知测试分布的两种设置下评估聚类性能。我们通过伪标签训练的半监督人脸识别任务进一步展示了 Hi-LANDER 的优势。最后，我们分析了运行时成本。

我们与以下基线进行比较。无监督方法包括 DB-SCAN [14]、ARO [35]、HAC [41]、H-DBSCAN [8]、Graclus [13] 和 FINCH [39]，其中后四个是分层基线。监督基线包括 L-GCN [51]、GCN-V [56] 和 GCN-E [56]。调整基线的超参数以分别报告它们的最佳性能。例如，我们调整 H-DBSCAN 的最佳 MinPts 参数。有监督的 GNN 基线通过验证集（元训练集的一部分）调整了它们的最佳参数，例如，我们调整了 GCN-V/E 的最佳 k-NN k 和 τ 参数。

4.1。评估协议

数据集对于人脸聚类，我们使用大规模图像数据集 TrillionPairs [2] 并随机选择十分之一（660K 人脸）进行训练。对于测试，我们使用 IMDB（图像，120 万张脸）[48] 和 Hannah（视频帧，20 万张脸）[36]。 Hannah 与 TrillionPairs 训练集没有重叠的个人身份，而 IMDB 的重叠很小（小于 2%）。所有面部数据集的特征都是从在 TrillionPairs 上训练的最先进的嵌入模型 [49] 中提取的。 Trillion-Pairs、IMDB 和 Hannah 的平均集群大小分别为 37、25 和 800。对于物种聚类，我们使用 iNaturalist2018 [43]。我们遵循 [7] 中图像检索的开放集训练测试拆分，其中训练（320K 实例）和测试（130K 实例）类是不相交的。两个拆分具有相似的集群大小分布，每个类平均有 56 个实例。特征是从 [7] 中的 ResNet50 预训练对象检索模型中提取的。补充表 6 显示了所有数据集的详细统计数据。对于所有聚类训练集，我们保留 20% 用于验证和超参数调整。最终确定后，我们使用固定的超参数对整个训练拆分进行重新训练。我们使用 Deepglit 和 IMDB 数据集进行人脸识别的伪标签训练，并使用 openset IJBC [30] 基准进行评估。

评估指标对于聚类，我们报告了归一化互信息（NMI）[46]，同时捕获了同质性和完整性。我们还报告了成对和双三次 F 分数，它们是聚类预测的精度和召回率的两种调和平均值，用 Fp 和 Fb 表示。我们报告了标准的人脸识别指标，包括用于验证的错误不匹配率 (FNMR) @各种错误匹配率 (FMR) 和用于识别的不同假阳性识别率 (FPIR) 的假阴性识别率 (FNIR)。

4.2.实施细节

我们使用验证集来选择我们的最佳元训练超参数。 k 设置为 10 用于 k-NN 图构建，并且对于所有设置和测试集的推理都是固定的。人脸聚类的 pτ 设置为 0.9，物种的 pτ 设置为 0.1。人脸和物种聚类都使用身份特征聚合（详见第 3.4 节）。所有验证集都是元训练集的一部分，在超参数调整期间我们无法访问任何测试信息。由于篇幅限制，对这些超参数的敏感性分析和其他细节包含在补充文件中。

4.3.消融实验

对早期停止的敏感性当没有更多的新边缘添加时，所提出的聚集过程会收敛。尽管在没有明确终止标准的情况下达到了这种收敛，但我们观察到该过程可以提前终止，而不会影响最终的聚类精度。图 2 显示了模型对提前停止的敏感性。两条垂直虚线表示满足提前停止和最终收敛标准的迭代。早停迭代后的聚类性能（Fp/Fb/NMI）平稳，与最终收敛相比，预测的准确性和聚类数没有显着差异。因此，仅出于计算复杂性的考虑，如果计算成本是一个问题，我们会提前终止聚集。这种选择既不是任意的终止标准，也不是复杂性/准确性的权衡，相反，它只是一种计算权宜之计。由于提前停止没有性能损失，我们在所有后续部分中报告提前停止的性能。

我们的早期停止标准基于以下观察。在所有簇都是k-ary树的情况下，在一个级别上创建的新边数应该≤前一层创建的边数的1/k。当多个中间集群合并时，这与早期层次结构中的行为相匹配。在最后几次迭代中，模型在精确收敛之前为几个级别添加了很少数量的边。因此，如果在任何级别上创建的新边缘超过前一个边缘的 1/k，则可以选择提前停止聚集。

联合推理的价值我们检查了联合推理在我们的单级 LANDER 模型中与使用表 1 中的两个独立模型的先前 GNN [56] 模型相比的效果。联合模型优于基线，F-提升了 5%分数，同时将运行时间减少五倍。

层次设计的价值我们在表 1 中检验了 Hi-LANDER 中层次设计的效果。比较第 2 行和第 3 行，将 LANDER 与我们的层次方法相结合导致 Hi-LANDER 将 F 分数从 0.234 显着提高到 0.677通过使用具有学习收敛性的不相交元训练集对数据粒度进行建模，将 NMI 从 0.644 增加到 0.810。

4.4.集群性能

在这里，我们在训练和测试数据的集群大小分布相似的情况下，将 Hi-LANDER 与最先进的无监督和监督方法进行比较。对于人脸，我们对 IMDB 的一个子集进行采样以匹配 Deepglit 的训练分布，并将这个子采样的测试集命名为 IMDB-Test-SameDist。对于物种，我们使用 iNat2018-Train 和 iNat2018-Test 进行训练和测试，因为它们遵循相同的集群大小分布。表2显示了结果。 Hi-LANDER 始终优于之前的 SOTA 无监督和有监督 GNN 基线。在这种情况下，有监督的基线比无监督的基线表现更好。我们假设这是由于在标签注释数据集上通过 GNN 训练处理复杂集群结构的领域专业化。

4.5.使用看不见的测试数据分布进行聚类

我们还报告了在测试时间分布未知且与元训练不同的设置下的聚类性能。也就是说，参数（例如 GCN-V/E 中的 τ 和 k-NN k 以及 L-GCN 中的最大簇大小）不能使用测试时间信息预先调整。对于人脸聚类，我们使用 TrillionPairs-Train 进行训练，并在 Hannah 和 IMDB 上进行测试。对于物种，我们对 iNat2018-Train 的一个子集进行采样，以获得与 iNat2018-Test 截然不同的训练时间集群大小分布，并将其命名为 iNat2018-Train-DifferentDist。表 3 说明了结果。 Hi-LANDER 在 Hannah 上大大优于先前的监督方法，其中集群大小的分布是长尾的（从 1 到 20K 不等）。这是由于 HiLANDER 能够执行动态推理并在测试期间适应大小变化很大的集群（如补充图 1 所示）。一些无监督基线，如 H-DBSCAN 和 HAC，优于 Hannah 的有监督基线，表现出更好的泛化能力。尽管是一种有监督的方法，但由于我们统一的 GNN LANDER 模型的强大表达能力，Hi-LANDER 优于所有无监督的基线。

4.6.使用伪标签的表示学习

我们遵循类似于 [59, 38, 57] 的设置，用于带有伪标签训练的人脸识别。从通过一些标记数据集学习的初始表示开始，我们利用聚类方法为未标记数据集生成伪标签，并使用这些伪标签进行训练以更好地学习表示。 5 人脸识别实验包括以下步骤：1 ) 从在 TrillionPairs 上学习的初始人脸识别模型开始。 2) 在 TrillionPairs 上训练一个聚类模型，或者对初始人脸表示使用无监督聚类方法。 3) 在 IMDB 上生成伪标签（删除了 TrillionPairs 的重叠身份）。 4) 通过伪标签在 IMDB 上训练人脸识别模型。 5) 在开放集 IJBC 基准上评估学习到的人脸表示。表 4 显示了结果。我们还报告了使用人工标记数据对 IMDB 进行完全监督训练的下限。与最佳基线相比，Hi-LANDER 实现了 14% 的错误减少。有趣的是，使用 Hi-LANDER 进行伪标签训练使性能达到 0.159（验证 FNMR@FPIR1e-4），比任何基线都更接近完全监督训练的下限 0.136。

4.7.运行时分析

我们将 Hi-LANDER 的运行时间（秒）与所有基线进行比较（表 5）。硬件和软件规范包含在补充文件中。上面的复杂性数字来自带有提前停止功能的 Hi-LANDER。我们的方法比大多数基线更快，并且与 GCN-V[56]、FINCH[39] 和 Graclus[13] 相当。引入的多个分层级别不会带来额外的开销，因为 Hi-LANDER 逐级运行速度更快，每个级别之后剩余的节点数量更少。

5. 讨论

所提出的聚类方法旨在使用来自带注释的训练集的归纳来提供未标记数据的丰富表示。 GNN 代表了一种自然工具，因为它们允许从不相交的数据集中训练输出图形结构的模型。由于聚类问题本质上是不适定的，因为没有唯一的“真实”聚类，我们的目标是提供丰富的层次表示，给用户更多的控制权——本着凝聚层次聚类的精神。为了解决跨层次结构复制基本图操作的计算挑战，我们提出了对当前基于 GNN 的方法的增强，以提高效率。尽管我们方法的复杂度为 O(kN)，与 GNN 聚类的普通平面版本相同，但全图推理是一种自然的并行化，与先前的具有子图推理的 GNN 相比，显着减少了运行时间。

当测试数据的分布与训练中的分布非常不同时，Hi-LANDER 会受到所有归纳方法的常见故障模式的影响。此外，当前节点特征聚合采用平均的形式，而可能有更复杂的方法，例如可学习的注意力以提供更多信息的聚合。

即便如此，我们的目标是尽可能减少任意选择的数量，并根据数据做出最关键的设计决策。一是聚类标准的选择。这是通过简单的分类损失由训练集继承的。数据分区的粒度级别也是如此。尽管我们使用了提前停止，但我们只有在验证该方法在迭代到收敛时才确定一个与早期迭代中获得的解决方案没有本质区别的解决方案之后才这样做。因此，提前停止不是选择作为设计参数或归纳偏差，而仅仅是作为减少计算的一种方式。

最后编辑于：2022.01.21 17:17:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260

Learning Hierarchical Graph Neural Networks for Image Clustering

推荐阅读更多精彩内容