论文 | 《Two-stream Convolution Networks for Action Recognition in Videos》文章及optical flow视频光流学习笔记

一 写在前面

未经允许,不得转载,谢谢~~~

这是一篇超级老也超级经典的文章了,2014年发表在NIPS上。在我之前的几篇视频识别的博客中也多次提到过这一篇two-stream结构。

整篇文章的思想和模型结构都很简单,之所以再拿出来完整地读一读是最近一门课程需要做个综述。

而且对于文章中的optical flow一直也只是闻其名,但没有真正学习过(/捂脸),所以也趁机学习一波。

二 基本介绍

2.1 任务描述

视频相比于图像而言,是一帧帧图像的集合。因此,很自然可以想到从两个维度去提取视频信息:

  • 空间:单帧图像包含的信息;
  • 时间:多帧图像之间包含的运动信息;

所以文章就想能否同时利用视频的空间信息与时间信息,来更好的提取视频特征,进而进行视频分类任务。

2.2 main contribution

文章的主要contribution:

  1. 提出了大名鼎鼎的two stream ConvNet;
  2. 实验发现利用optical flow即使只有很少的训练样本也能达到不错的实验结果;
  3. 在两个不用的数据集上用multitask-learning, 可以增加训练样本的数量,进而提升在单个数据集上的识别性能。

第3点在现在看来其实都不算是很创新的东西了,只是把两个数据集UCF101及HMDB51叠加在一起作为训练集训练网络,用相同的网络结构,不同的softmax进行分类,得到两个分类loss,然后对两个loss做一个相加后进行梯度回传。

这里主要介绍一下two stream的结构及optical flow相关的部分。

三 模型及方法介绍

还是先看网络结构图吧:

模型结构图

整体网络简单清晰:

  • 上面一层:spatial stream convNet负责提取空间信息;
  • 下面一层:temporal stream convnet负责提取时间信息;
  1. 如图中所示,对于spatial convNet来说,输入图像是单张RGB图像,然后经过一系列的卷积层、fc层后接到一个sofmax中,得到一个概率分布值;

  2. 然后对于Temporal ConvNet来说,输入是多帧图像之间的optical flow,同样经过一系列网络层后接到一个softmax中,得到一个概率分布值。

  3. 除了下面的temporal ConvNet少了一层normalization层, 上下两个stream的基本网络构成都是一样的。

  4. 最后的class score fusion将两个stream的score值融合在一起,文章一共尝试了:average、SVM这两种方法。(实验结果显示SVM融合的方式更优)

四 optical flow视频光流

4.1 optical flow stacking

我们先从下面的例子来看一下optical flow的定义:

  1. 光流可以看成是2帧连续帧t,t+1之间的移位向量场(displacement vector)。
    如图(a),(b)所示为2帧连续帧,其中绿色框中是前后两帧运动信息比较明显的部分。

  2. 图(c)展示的就是绿色框中对应的光流情况,可以看到各个位置的移动情况。

  3. 图(d)(e)分别是对移位场进行水平和垂直两个方向进行分解后的示意图。
    这两个就就可以很方便的用神经网络来识别。

对于大小为 w, h, 帧长度为L的一个视频片段来说,将L帧的dx,dy给堆叠起来,就能得到长度为2L的input channels, 即整个输入的体积形状为:[ w,h,2L ]

对于L中的任意一帧τ而言,下式成立:


其实整个数学公式表达的就是将每一帧的dx,dy按序stack在一起的意思:

而对于任意一个点(u,v),Iτ(u,v,c), c = [1;2L] 就是表示这一个坐标位置点在长度为L帧中的动作进行编码。

4.2 trajectory stacking

整体思路跟optical 类似,只是这里记录的是轨迹信息。

看如下公式:

唯一与optical flow不一样的地方的地方就在在于等式的右边不再是位置(u,v),而是轨迹Pk。

Pk的数学解释在这里:

其实就是记录的从点(u,v)出发,后面每一个轨迹上的点的位置。即pk上的点是从运动轨迹上sample出来的。

下面这张图很好的表示了optical flow和trajectory之间的关系和区别:

  1. 左边是optical flow;
  2. 右边是trajectory;
  3. 注意看左边的点在各帧上始终是p1,即记录的自始至终都是同一个坐标点(u,v)在各帧上的移动情况。
  4. 而右边的点从最开始的p1(u,v),到后面各帧,它指向的坐标位置是在变化的。它记录的是这个点的运动轨迹。

目前用的比较多的应该还是optical flow的表示方式。

4.3 learn more

  1. optical flow具体计算方法参考:T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracy optical flow estimation based on a theory for warping. In Proc. ECCV, pages 25–36, 2004.
  2. trajectory具体计算方法参考:H. Wang, A. Kl¨aser, C. Schmid, and C.-L. Liu. Action recognition by dense trajectories. In Proc. CVPR, pages 3169–3176, 2011.
  3. 具体实现:github有挺多开源代码,下次有机会实践的话再另外补充吧~

五 写在最后

接下来一段日子应该都会先学习3D重建方面的东西了,新接触一个领域还是有很多新的东西需要花时间和精力去学习。

视频的工作当然也希望能一直做下去。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268