论文粗读“Mutual Contrastive Learning for Visual Representation Learning”

Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.

摘要翻译

本文提出了一种协同学习方法--互对比学习(Mutual Contrastive Learning,MCL),用于视觉表示学习。其核心思想是在一系列类似的网络之间进行对比分布的相互作用和转化。【交互对比学习(ICL)是MCL中的重要组件。与普通的对比学习相比,ICL可以聚合跨网络嵌入信息,并最大化两个网络间互信息的下界。这使得每个网络能够从其他网络那里学习额外的对比知识,从而为视觉识别任务提供更好的样本表征。并且作者特别注明,MCL在概念上很简单,但是却显示出了强大的实验效果。】值得注意的一点是,该框架是一个通用型框架,可以应用于监督和自监督的表示学习。

模型浅析
互对比学习(Mutual Contrastive Learning)概念图

其中,f_1f_2分别表示两个不同的网络。对于给定输入样本x^i,由f_m推断出的嵌入表示向量被表示为v_m^i。虚线箭头分别表示了对比损失中需要拉近或推远的正负例样本。此外,本文还增加了softmax-based相似分布的相互对齐。

协同学习架构
  • 符号说明
    一般来说,一个分类网络f(\cdot)一般划分为特征抽取器\varphi(\cdot)和一个线性全连接层FC(\cdot)z=f(x)=FC(\varphi(x))是由f(\cdot)映射得来的logit向量。此外,作者为该分类网络额外增加了一个额外的映射头\phi(\cdot)将特征嵌入映射为潜在嵌入v \in \mathbb{R}^d。即:v=\phi(\varphi(x)),然后将其应用于对比学习中。
  • 训练阶段
    这里以监督学习任务为例,对应的MCL的训练框架如下所示:
    整体的训练包含M(M \geq 2)个分类网络记录为\{f_m\}_{m=1}^M用于协同学习。上图展示的是M=2的情况,两个独立的分类网络分别为f_1f_2。所有想用的网络结构用不同的权重进行初始化以产生不同的表示。(这一点对于互学习来说,是成功的前提)如前面提到的一致,所有这些分类网络都装备了额外的嵌入映射模块\phi_m
  • 测试阶段
    在分类的测试阶段,摒弃了所有的映射模块,只保留一个网络用来推断。用于推断的网络的结构与原始网络相同。也就是说,不会引入额外的推理成本。
互对比学习
  • 普通对比学习(Vanilla Contrastive Learning)
    给定输入样本x^0为锚点样本,可以得到1个对应的正例样本x^1以及K(K \geq 1)个负例样本\{x^k\}_{k=2}^{K+1}。对于监督学习,正例样本通常和锚点样本来自同一个类别,而负例样本则来自不同的类别。对于自监督学习,正例样本和锚点样本通常是同一个样本的两种增强。为方便表示,本文将锚点的嵌入记录为v_m^0,正例嵌入为v_m^1K个负例嵌入为\{v_m^k\}_{k=2}^{K+1}m表示嵌入表示产生自f_m
    根据嵌入表示,可以得到对应的对比概率分布p_m=softmax([(v_m^0 \cdot v_m^1 / \tau), (v_m^0 \cdot v_m^2 / \tau), \cdots, (v_m^0 \cdot v_m^{K+1} / \tau)]),其中\tau是常温度系数。p_m用归一化概率分布来测量相对样本方面的相似性。概率值越大表示锚点和对比嵌入之间高度相似。这里使用cross-entropy来使得正例对逼近,负例对推远:
    p_m^k表示p_m的第k个元素。这种损失相当于一个(K+1)的基于softmax的分类损失,这迫使模型能够对正样本进行正确的分类。上述式(1)和InfoNCE loss是一致的。如果将对比学习应用在M个不同的网络上,最终的普通对比学习损失如下:
  • 交互式对比学习(Interactive Contrastive Learning)
    然而,普通的对比学习并不能为协作学习建模跨网络关系。为了充分利用不同网络之间的信息交互,本文提出了一种新的交互式对比学习(ICL)来模拟跨网络交互,以学习更好的特征表示。因此,本文以两种平行网络f_af_b对ICL进行了形式化;其中a, b \in \{1,2,\cdots,M\}, a \neq b,并且可以以这种形式扩展到多个网络的情况下。
    为了构建ICL,首先将f_a固定下来对f_b进行枚举。从f_a中获取到锚点嵌入v_a^0,然后可以从f_b中得到正例嵌入v_b^1以及负例嵌入\{v_b^k\}_{k=2}^{K+1}。关于样本的对应生成可以看模型概念图中的示例。
    相应的从f_af_b的对比概率分布写成如下的形式:q_{a \rightarrow b}=softmax([(v_a^0 \cdot v_b^1 / \tau), (v_a^0 \cdot v_b^2 / \tau), \cdots, (v_a^0 \cdot v_b^{K+1} / \tau)]),类似的,其对应的对比损失函数有如下形式:
    与式(1)相比,式(3)采用来自另一个网络的对比嵌入,它可以在多个网络之间的各种嵌入空间中建模依赖关系,促进信息通信以学习更好的特征表示。将其扩展到\{f_m\}_{m=1}^M,在每2个网络之间建模连接连接,因此可以得出如下的全局损失:
软对比学习与在线相互模仿 (Soft Contrastive Learning with Online Mutual Mimicry)

Deep Mutual Learning 的成功说明了每个网络都可以通过 online peer-teaching 的方式相互学习其他网络的软类概率分布来更好地一般化。这是因为每个网络的类后验输出可以被看作其他网络输出软分配的标签信息。即:p_mq_{a \rightarrow b}也可以被视为类别的后验。因此,对这些对比分布进行相互模拟,理论上可以获取到更好的表示。
因此,在VCL和ICL的过程中都使用到了对比分布的对齐操作,具体如下:

  • Soft Vanilla Contrastive Learning
    对于\{f_m\}_{m=1}^M可以产生\{p_m\}_{m=1}^M,其损失为:
    其中,p_m是由f_m对应产生的对比分布,p_l是为了稳定而从梯度反向传播中分离出来的软标签且p_l \in \{p_l\}_{l=1, l \neq m}^{l=M}
  • Soft Interactive Contrastive Learning
    给定两个网络f_af_b,可以得出两个交互对比分布q_{a \rightarrow b}q_{b \rightarrow a}。扩展到\{f_m\}_{m=1}^M,其损失为:
    同理,q_{b \rightarrow a}是从梯度反向传播中分离出来的软标签。
总体损失

为了充分利用协同学习的优点,包含M个网络的总体损失为:

将MCL应用到监督学习中

在传统的监督学习的分类任务中,会使用分类层输出的logit向量和gold标签进行交叉熵损失。给定输入xM个分类网络\{f_m\}_{m=1}^M的输出\{z_m\}_{m=1}^M,每个网络可以应用真实标签y进行预测的概率分布和真实标签之间的交叉熵损失,其损失表示为:

整合logit-based的分类损失和embedding-based MCL损失用于协同学习。MCL在分类任务中的损失为:

将MCL应用到自监督学习中

MCL在自监督中应用主要区别在于:1. 正例的构造:使用数据增强的方式;2. 不能使用带有真实标签的交叉熵损失。结合经典的MoCo算法,作者这里给出了一个MCL和MoCo框架的结合图(M=2)。

由于自监督对比学习通常需要大量的负例样本,MoCo构造了一个动量编码器和一个队列来提供对比嵌入。自监督学习只涉及 embedding-based学习,因此将总体损失表示为MCL损失。

实验结果可视化对比

本文提出了一种简单而有效的相互对比学习方法,从对比表示学习的角度来协同训练一组模型。实验结果表明,它可以广泛应用于监督学习和自监督学习。感觉就是把多视图那一套又返回来用在了单视图图像的表示学习中。但是,因为多视图数据本身的特性,很少考虑到对齐分布对比的损失,但这也不失为考虑视图分布对齐的一种方式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容