论文笔记C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

思考

对视频进行描述,其描述子必须:

1.具有普遍性以适应各种场景;

2.必须短小紧凑

3.必须利于计算

4.必须易于实现

图像识别中,特征提取的很完备和优秀,但不适用于视频。本文致力于利用3D CNN提取时空特征。我们只用线性分类器来分类它们,以验证特征好坏。并且这些特征可以被拿来做各种视频分析任务,无需针对任务再调整模型(就笔者知道的,包括video caption, temporal action detection等任务都有许多人使用C3D来提取特征)。

本文的发现

1.用实验验证了3D卷积深度模型很适合同时提取外貌和时空特征;

2.发现3×3×3的卷积核表现最好

3.在4个任务,6个不同的benchmark上,仅仅用我们提取的特征加上线性分类器已经超过或接近当今最好模型了。

我们的方法输入的就是完整的帧,无需依赖于任何预处理。当然,有些部分和AK那篇和双流那篇有些相似。AK那篇除了Slow Fusion都是2D卷积,而本文将在卷积和池化层都使用3D操作。并且还将展示,建立更深的网络以及在时间空间上逐步池化能保证取得最好的效果。

3D卷积网络

接下来的一节,我们介绍基础的3D卷积操作,以及设计不同的3D卷积网络。

对一张灰度图进行2D卷积,得到一张图片(一个feature map),哪怕是彩色图有三个通道,也是一样,最终得到的还是一张图(一个feature map),它们本质上都是2D卷积,不包含任何时间信息。AK那篇中Slow Fusion,虽然表现比同文中其它模型好,但是在第3层之后运动信息还是丢失掉了。

本文的思路也是empirically地通过对比找到一个好的结构。
卷积核尺寸的确定:受2D CNN的启发,我们固定地将空间维度定为3×3,仅尝试不同时间维度的信息。

网络的输入输出

输入:一个clip
输出:类别

clip的记法:c×l×h×w,分别为通道,clip中帧的数量,每帧的高和宽。
....................帧分辨率h×w:128×171(大约UCF101分辨率的一半)
....................clip长度l;16.视频被分成一个个16帧的clip,且无重叠
故clip尺寸为3×16×128×171

网络结构

一共包含5个卷积层,每层的卷积核数量为64,128,256,256,256。在时间和空间上都进行合适的padding操作,并且步长选为一,这样就能够保证卷积前后clip的尺寸不变。

pooling层:第一层上的pooling操作采用1×2×2的kernel size,1代表深度。意图是想尽量保留运动信息不要过早融合。之后的pooling操作均采用2×2×2的kernel size。

超参探索

其实本文的目的之一也是研究如何融合运动信息。但是本文只探索卷积核时间维度的最佳大小,而保持其它设置不变。这里从两个方向进行尝试:1. 均匀时间深度,即所有卷积层都用同样尺寸卷积核;2. 变化时间深度,即对于第一种,我们尝试四个网络,分别用depth值为1,3,5,7的卷积核,深度为d的网络成为depth-d网络。对第二种,尝试两个网络,第一种卷积核increasing,各层卷积核深度为3,3,5,5,,7,第二种卷积核decreasing,为7,5,5,3,3。
所有这些网络在经过最后一个池化层后输出信息尺寸一样(因为有padding)。由实验结果(下图)发现3×3×3的卷积核效果最佳,并且好于2D卷积(depth=1就是2D卷积)


image

网络整体描述

当面对大型数据集的时候,可以加深网络深度,但卷积核依旧使用3×3×3。从现在开始,正式叫这个网络为C3D。整体介绍一下这个网络的配置:


image
  • 8 convolution layers,
  • 5 pooling layers,
  • two fully connected layers,
  • a softmax output layer.
  • 所有卷积核均为3×3×3
  • 第一个pooling层1×2×2,Stride=1×2×2,之后都是2×2×2,stride=2×2×2
  • 两个全连接层都是4096

训练

在 Sports-1M数据集上训练。从每个视频中抽取5个clip,每个clip占2秒,每个clip被resize为128×127.训练时又把crop成为16×112×112 的crop。
除了在Sports-1M上重头训练C3D网络,我们还训练了一个已经在I380k上预训练过的模型。


image

显然,C3D在各个测试上表现都不错,但仅次于Convolution pooling on 120-frame clips。它使用的是长clip,速度必然极其慢。而且clip level 的对比上肯定是120-frame clip的表现好。我们主要对比video层面的表现。

C3D视频描述子

C3D网络也可以用来抽取并描述视频特征,即可以认为第一个全连接层的输出作为对这个clip的描述。对于视频,连续抽取16帧作为一个clip,两个clip之间存在8帧的重合。然后把每个clip输入C3D网络,每个clip对应输出一个4096维的激活向量。把它们做平均之后通过L2-Normalization就可以得到这个视频的描述子。

将这个描述子用在视频动作识别上试试:
在UCF101上测试。方法是,用C3D提取的特征描述子输入SVM进行分类,检验描述子的好坏。这里尝试了不同C3D提取的描述子,包括:
C3D trained on I380K
C3D trained on Sports-1M
C3D trained on I380K
fine-tuned on Sports-1M


image

下文略

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271