论文 | 小样本视频动作分类few-shot video action recognition《Embodied One-Shot Video Recognition: Learning fro...

一写在前面

未经允许，不得转载，谢谢~~~

有将近2个月的时间没有在简书上更文了，这段时间小伙伴们的留言和评论也没有及时处理，/抱歉(灬°ω°灬)

这篇文章是我自己的第一篇学术论文，从去年4月投稿到10月底参加学术会议，中间学到很多东西。

希望会是一个好的开始，希望接下来能保持努力。❥

文章基本信息：

会议：ACMMM2019
论文：Embodied One-Shot Video Recognition: Learning from Actions of a Virtual Embodied Agent
原文：https://dl.acm.org/citation.cfm?id=3351015
UnrealAction dataset：http://www.sdspeople.fudan.edu.cn/fuyanwei/dataset/UnrealAction/

二文章简介

这个工作主要是针对小样本视频分类任务。

2.1 motivation

1. one-shot learning基本介绍

我们会有一个source domain（有充足的标注样本），和一个target domain（只有少量的标注样本）；
小样本学习旨在从source classes中迁移知识到只有非常少量标注信息的target classes中；
所有source classes中的样本都可以用来帮助训练模型；
我们的最终目的是要在target dataset上达到较好的识别效果。

目前比较多的工作都还是基于image-domain上的研究，并且在general setting下source domain和target domain中的样本类别应该是不一样的。

2. one-shot learning revisited

视频相比于图像而言会多一个时域维度，所以将小样本学习从image-domain扩充到video-domain时就会碰到一些问题，这个是我们presentation时候画的示意图：

在视频的小样本学习中很容易会出现非常相近的视频同时出现在source domain和target domain中的情况，换句话说就是一个被标记为Action A的视频里面会出现包含Action B的情况。例如shooting basketball这样一个投篮的动作中就有非常大的可能包含running跑步的视频片段；

这样的一个overlapping issue本身会带来一些不太好的影响：

对于overlapping的类别，由于其已经出现在source domain中，但是标注的是别的类别，这对这个类别本身的识别不好；
很难判断模型的性能好坏；

2.2 contribution

针对上面提到的overlapping问题，我们在将小样本学习从图像域扩充到视频域的时候引入virtual embodied agent，通过学习虚拟人物的动作来帮助我们学习理解现实世界中的视频，然后基于这个想法提出了新的Embodied one-shot learning setting；
我们构建并提供了UnrealAction dataset，用于支持上面提到的Embodied one-shot learning的学习和测试；
针对小样本学习中target classes中标注数据极度缺乏的情况，我们提出一种简单而有效的视频段增强（video segment augmentation）方法；

接下来我会依次对以上几点进行介绍(〃''〃)

三新的小样本学习任务：Embodied One-Shot Video Recognition

3.1 Learn from actions of virtual embodied agent

针对上面提到的overlapping问题，我们的key idea是通过学习虚拟的智能人体的动作来理解现实世界中的动作类别。

embodied agent：是一个能够与虚拟环境进行智能交互的虚拟人体；
在我们的任务中，agent的任务就是尽可能真实地模仿人类的动作，这个模仿的过程在一定程度上跟我们人类认识并理解一个新的动作有点相似；
上图展示的是两个街舞break dancing的视频截图，感兴趣的同学可以下载我们的数据集看看哦；

生成出来的动作就可以很自然地帮助我们学习和理解现实世界中的视频，而且理论上我们可以用一个动作生成大量不同人体不同背景的视频，为模型训练提供样本。

这样做的另一个好处是由于我们生成的虚拟视频扮演的动作都是非常纯粹的，这样就可以在一定程度上避免掉开头我们提到的overlapping的问题。

3.2 UnrealAction dataset

我们通过在Unreal Engine4虚拟引擎中构建虚拟世界，然后让agent在里面perform不同的目标动作的方式生成大量的视频。

以下是UnrealAction dataset的示意图：

视频类别：14 action classes；
视频数量：每个类对应100个虚拟视频，10个真实视频的识别；
视频来源：虚拟视频由我们生成，真实视频在youtube等地方采集而来；

目前数据集从数量上来看还是挺小的，但是可以作为一个test benchmark。

3.3 Embodied One-shot Video Recognition

我们提出了一个新的小样本视频动作识别的setting：embodied one-shot video recognition。

然后又为这个新的setting提出了两种具体的任务定义：embodied one-shot domain adapatation以及embodied one-shot transfer recognition;

左边：source domain，右边：target domain，黑色：真实视频动作，紫色：虚拟视频动作

classical one-shot setting： source 和 target都是真实的，且动作类别不一致；
embodied one-shot domain adapatation: source是虚拟的，target是真实的，动作类别一样，旨在通过学习相同动作的虚拟视频来帮助理解现实中的视频；
embodied one-shot transfer recognition： source是虚拟的，target是真实的，且动作类别不一样，这是最难的一种情况，即要求算法有domain adapatation的能力，又要求算法能快速识别只有少量标注样本的新类别；

四视频数据增强方法： Video Segment Augmentation Method

受到潜意识广告实验的启发，我们提出了一种很简单但是有效的视频数据增强方法来处理小样本学习情况下目标视频标注数量非常少的情况。

简单来说，我们的想法就是给定一个待增强的视频（probe video），其中该视频的动作为c，我们用一段帧数非常少的视频片段（gallery video segment）来替换原视频中的等长的视频片段，来生成新的视频augemented video。由于被替换的视频片段非常的短，我们可以认为生成的视频动作仍然保持原来的c不变。

用这种方式我们就可以为原本有限的数据集进行数据增强的操作。

下面展示的这个是具体如何来选择gallery video segment来保证生成的视频在时序和语义空间上都尽量保持原有的连贯性：

这个算法的细节以及实验部分我就不打算在这里仔细介绍了，感兴趣的同学欢迎看看原文哇~

五写在最后

是我写的很认真的一篇论文博客啦，嘻嘻~~

之前纠结了很长一段时间要不要写这篇博客，后来想了想还是写叭，可能会很多做的不够好的地方，欢迎大家指正啦！

如果你对这篇文章感兴趣，欢迎下载我们的论文and数据集，感谢~

最后，感谢所有帮助我过的老师同学们，并且希望自己多多努力！

2019还有不到2个月就要结束了，希望今年能再做一些工作，与大家共勉。

最后编辑于：2020.09.15 16:48:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,847评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,208评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,587评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,942评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,332评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,587评论 1赞 218
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,853评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,568评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,273评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,542评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,033评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,373评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,031评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,073评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,830评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,628评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,537评论 2赞 269

论文 | 小样本视频动作分类few-shot video action recognition《Embodied One-Shot Video Recognition: Learning fro...

一 写在前面

二 文章简介