论文阅读之“NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale VId...

  这是第2届YouTube 8M短视频分类大赛的第3名的论文。论文内容主要是是对NetVLAD进行改进。NetVLAD的一大缺点在于编码后得到的特征维度太高了。假设NetVLAD中簇的数量是K,每个簇中心向量的维度是N,那么编码后每个视频对应的表示向量维度就是N*K。后面再接个隐层将编码特征嵌入到低维空间H中,那么这个隐层包含的参数就有N*K*H个(在比赛中设定N=2048、K=128、H=1024,那么这一层的参数就有268435456个),参数太多会造成很多问题,除去计算和存储上的冗余,还会导致难以优化和过拟合等问题。
  问题的关键就在于编码特征向量维度太大,但是如果直接减小簇的数量或者簇中心向量的维度又会造成编码性能的下降,毕竟模型参数数量隐式地影响了表达能力。如何能在降低维度的同时又能保证模型性能呢?首先我们看下比赛中NetVLAD模型的流程图:

NetVLAD流程图.png
虚线框中是VLAD编码过程,该部分包含参数有
2*N*K
个。其中,用于生成占有概率
\alpha
的FC层有
N*K
个参数,簇中心向量表示矩阵有
N*K
个参数。虚线框输出的编码特征是
N*K
维的向量。虚线框外的FC层是为了将编码特征映射到低维空间中,包含参数有
N*K*H
个。所以这个可学习降维过程共有
N*K*(H+2)
个,其中FC层占大头。所以改进的关键在于减少虚线框输出向量的维度,但是要保证虚线框的拟合能力。直接减少
N
或者
K
是不可行的,因为这样会损害虚线框中网络的拟合能力。所以作者借鉴了ResNeXt中“分”的思路,对虚线框中的网络结构进行了调整。
  下面先来看下ResNeXt是如何对ResNet进行改进的,下图是ResNet和ResNeXt的对比图:
ResNet和ResNeXt的对比图.png
通过对比图我们很容易看出,ResNeXt所做的工作就是将原本一个通道完成的工作分为多个通道来共同完成。原论文中也给出了两种模型的具体参数对比表:
ResNet-50和ResNeXt-50的具体参数对比.png
可看出改变了结构的ResNeXt在参数数量上并没有大的变化,也就是说,ResNeXt的贡献并不是对ResNet进行模型压缩,而是为模型增加更多的非线性函数,增加模型的拟合能力。这里可能就会造成一点小小的疑惑:既然ResNeXt并不能降低模型参数数量,那么基于ResNeXt的思想对NetVALD进行改进有什么用啊?我们要的改进就是要降低参数数量啊!
  别急,接下来就来看下NeXtVLAD是如何基于ResNeXt的思想来改进的。首先还是先来看下具体的流程图:
NeXtVLAD流程图.png
我们来看下结构改动的地方有:

  1. 输入数据x发生了变化。新模型中先对x进行升维得到\dot{x},再对\dot{x}进行分组得到\tilde{x},此时数据的维度变化是[N] \rightarrow [\lambda N] \rightarrow [G,\cfrac{\lambda N}{G}]
  2. 簇中心矩阵发生了变化。输入数据维度发生了变化,相应的簇中心矩阵也要发生变化,新模型中簇中心矩阵c的维度变化是(原)[N,K] \rightarrow (新)[\cfrac{\lambda N}{G},K]
  3. 权重系数的计算发生了变化。由于原数据进行分组,维度上增加一维,所以相应的占比概率\alpha的维度也要增加一维。具体变化是:(原)[K] \rightarrow (新)[G,K]。同时,由于最后还要将各组的结果综合起来,因此增加了一个新的变量\beta,维度是[G]
    两者的不同其实可以从编码公式上体现出来,下面是两者的编码公式:
    \begin{align} (NetVLAD) \quad & v_{ijk}=\alpha_k(x_i)(x_{ij}-c_{kj}),i\in\left\{ 1,...,M \right\},j\in\left\{ 1,...,N \right\},k\in\left\{ 1,...,K \right\} \\ (NeXtVLAD) \quad & v_{ijk}^g=\beta_g(\dot{x}_i)\alpha_{gk}(\dot{x}_i)(\tilde{x}_{ij}^g-c_{kj}),g\in\left\{ 1,..,G \right\},i\in\left\{ 1,...,M \right\},j\in\left\{ 1,...,\cfrac{\lambda N}{G} \right\},k\in\left\{ 1,...,K \right\} \end{align}

我们再来看看参数的变化:

  1. 虚线框内。原来NetVLAD的参数量是2*N*K,现在NeXtVLAD的参数量是\cfrac{\lambda N}{G}*K+N* \lambda N+ \lambda N*G*K+ \lambda N*G,两者比较其实就是比较2N\cfrac{\lambda K}{G}+\lambda N+\lambda GK+\lambda G的大小。一般\lambda取值大于1,所以前者肯定比后者小。也就是说,结构改变后,虚线框内的参数数量反而增加了。这意味着什么?编码部分的网络的拟合能力并没有削弱,相反,由于新加入了一个网络,可以认为编码网路的拟合能力更强了。
  2. 虚线框外。此时FC层的输入数据维度是[\cfrac{\lambda N}{G}*K],所以NeXtVLAD中FC层的参数数量减少为NetVLAD的\cfrac{\lambda}{G}倍。

总得来说,就是框里面的参数增加了,框外面参数减少了,总参数减少了。“减少模型参数”的目标达到了,同时框里面的参数增加了,非线性也增加了,说明编码特征的性能也没有降低,“保持模型性能”的目标就也达到了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容