【一文读懂Hinton最新Capsules论文】CNN 未来向何处去

姓名：周雪宁

学号：1702110196

转载：https://mp.weixin.qq.com/s/gdke9E1A3eRUzgidp9uOqg

【嵌牛导读】：Hinton 最近发表的一篇论文 Dynamic Routing Between Capsules 提出用 Capsule 这个概念代替反向传播，引起广泛关注，大数医达创始人，CMU计算机学院暨机器人研究所博士邓侃用浅显的语言梳理解读了论文。邓侃认为，capsule 作为视觉数学表征，很可能是为了把视觉，听觉、阅读的原本相互独立的数学向量，统一起来，完成多模态机器学习的终极目标。

【嵌牛鼻子】：capsule，CNN

【嵌牛提问】：Capsule具体思想是什么？能否真的超越CNN？

【嵌牛正文】：

CNN 未来向何处去？

做领袖不容易，要不断地指明方向。所谓正确的方向，不仅前途要辉煌，而且道路要尽可能顺畅。

Geoffrey Hinton 是深度学习领域的领袖。2011 年，正当 CNN 模型爆发性地取得一个又一个靓丽成就时，老爷子却开始冷静地剖析 CNN 模型存在的致命弱点，指出前进的方向。

老爷子上周刚刚发表了一篇论文，题为Dynamic Routing Between Capsules。一看这题目就预料得到，这篇论文一定会引起广泛关注。因为这题目里，涉及到两个概念，Capsule和Dynamic Routing。而这两个概念，正是老爷子主张的 CNN 前进的方向。

老爷子的论文，读起来略感晦涩，其实道理并不难懂。笔者尝试用浅显的语言，把论文梳理一下，或许有助于理解。

Capsule：实体的视觉数学表征

深度学习，其实就是一系列的张量变换。

从图像、视频、音频、文字等等原始数据中，通过一系列张量变换，筛选出特征数据，以便完成识别、分解、翻译等等任务。

譬如原始数据是 28 x 28 的黑白图像，每个黑白像素可以用 8 个 bits 来表达，那么这张黑白图像就可以用 28 * 28 * 8 的张量来表达，张量中每个元素的取值是布尔值，0 或者 1。

又譬如想识别在这些黑白图像中，是否包含从 0 到 9 的手写体数字，那么深度学习的传统做法是，输出一个 10 维向量，( x_{0}, x_{1}, ... x_{9} )，其中每个元素 x_{i} 的取值范围是 [0, 1.0]，表示出现相应数字的概率。

例如，输出的向量是 ( 0.2, 0.1, 0.7, 0.9, 0.2, ..., 0.1 )，那么意味着，图像中出现数字 2 的概率是 70%，出现数字 3 的概率是 90% 等等。

Capsule 的创新，在于改变了输出，不是输出一个向量，而是输出 10 个向量。每个向量分别表达某个数字的若干个属性。

老爷子的论文中，输出的是十个 16 维向量，( x_{i, j} ) 其中 i = 0 ... 15, j = 0, ... 9。也就是说，老爷子认为每个手写体数字包含 16 个属性，包含几个圆圈，几个弯勾，几个折角，几根横竖，弯勾折角的大小，笔划的粗细，整个字体的倾斜度，等等。

Capsule 的想法，不难理解。但是仔细想想，存在以下几个问题。

传统的图像识别的解决方案，是把识别问题转化为分类问题。这个方法已经足以解决识别问题。实体的视觉数学表征 capsule 的意义是什么？

如何证明 16 维的 capsule 向量，能够作为手写体数字的视觉数学表征？为什么不是 32 维或者更多？

Capsule 向量中的元素 x_{i}，与实体的属性之间的关联，是机器自动学习出来的。但是是否可以被人为预先强制指定？

低级 capsule 与高级 capsule 之间的关联关系，是机器自动学习出来的，还是可以被人为预先强制指定？

Capsule 的意义

老爷子试图用 capsule 向量，囊括实体的所有重要属性。如果某个实体的所有属性，都在图像中出现，那么可以确认，这个图像一定包含这个实体。所以他把这个向量，称为实体胶囊 capsule。

一个手写体数字，不管字体是否端正，笔划是粗还是细，圆圈和弯勾是大还是小，都用同一个胶囊 capsule 来表征。

一个轮胎，不管拍摄的角度如何，不管是正圆还是椭圆，不管轮毂是什么式样，也都可以用同一个胶囊 capsule 来表征。

说得抽象一点，capsule 就是实体的视觉的数学表征。

想起了词向量，word vector，词向量是文字词汇的数学表征。

能否把 capsule 和 word vector 统一起来，不管实体的表达是图像还是文字，都可以用同一个数学向量来表征？

论文中没有明说，但是老爷子多半心怀这个想法。

说得更直白一点，capsule 作为视觉数学表征，很可能是为了把视觉，听觉、阅读的原本相互独立的数学向量，统一起来，完成多模态机器学习的终极目标。

重构图像：验证 Capsule 的猜想

假设 capsule 包含了某个实体的所有重要视觉属性，那么理论上来说，应该可以从 capsule 还原包含该实体的图像。

为了证明这个猜测，论文使用了一个神经网络，把 capsule 向量作为输入，重构手写体数字图像并输出。

实验结果证明，capsule 确实能够重构出正确的手写体数字图像。

而且更让人惊奇的是，这些 capsules 中的某些属性，也就是 ( x_{i, j} ), i = 0...15，j = 0...9，其中的几个 x{i}，具有明确的物理意义，譬如手写体字体大小宽窄倾斜度，以及字体中弯勾圆弧等局部特征的大小位置等等。

为什么每个手写体数字只包含 16 个属性，而不是 32 个或者更多属性？

16 个属性，已经足以正确地重构手写体数字图像。32 个或者更多属性，无非是表达方式更细腻而已，这个问题不太重要。

Dynamic Routing：从原始数据中寻找实体属性的存在证据

Capsule 向量的元素 x_{i}，与实体的属性之间的关联，是人为确定的，还是机器自动对应的？

根据论文的描述，关联关系是机器自动对应的，所以在 capsule 向量 ( x_{i} ), i = 0...15 中，某些 x_{i} 的物理意义比较明确，其它 x_{i} 的物理意义却可能难以解释。

假如人为强制指定 capsule 中各个 x_{i} 的物理意义，换句话说，人为强制指定 capsule 向量元素 x_{i} 与实体属性之间的关联关系，是否会有助于提高识别精度，降低训练数据的数量？

回答这个问题之前，需要先了解的 capsule 向量中 ( x_{i} ) 的取值，是怎么来的。

前文说到，深度学习其实就是一系列的张量变换。通过一系列张量变换，从图像、视频、音频、文字等等原始数据中，筛选出特征数据，以便完成识别、分解、翻译等等任务。

论文使用了两层卷积神经网络，对原始黑白照片，也就是 28* 28 * 8 的原始张量，用两层卷积，完成一系列张量变换，转变成新的张量 ( x_{attr, lon, lat, channel} )，attr = 0 ... 7, lon = 0 ... 5, lat = 0 ... 5, channel = 0 ... 31。

这个新张量中的 ( x_{attr} ) 是初级 capsule，表达原始图像中值得注意的特征。其中 attr 代表初级 capsule 的属性，维度为 8。

新张量中的 ( x_{lon,lat} ) 表示 capsule ( x_{attr} ) 在原始图像中的方位。经过张量变换后，28 * 28 的原始图像，被缩略为 6 *6 个方位。( x_{channel} ) 是频道，类似于多机位拍摄同一个场景，全面表达 capsule 在原始图像中的视觉特点，总共有 32个频道。

在新张量中，总共有 lon * lat * channel = 6 * 6 * 32 = 1152 个初级 capsule ( x_{attr} ) 。换句话说，经过一系列张量变换，从原始图像中，筛选出了 1152 个值得注意的图像特征。

高级 capsule 是前文说的十个手写体数字的 16 维属性向量，即 ( x_{attr, class} ), attr = 0 ... 15, class = 0 ... 9。

想识别原始图像中，是否包含手写体数字 3，也就是 class = 2，只需要把 1152 个初级 capsules，逐一与高级 capsule 向量 x_{*, 2} 做比对。

如何做比对呢？先做一次线性变换，把 8 维的初级 capsule，变换成 16 维的初级 capsule。然后计算 16 维的初级 capsule 与 16 维的高级 capsule 之间的余弦距离，也就是两个向量之间的点乘。

从每个高级 capsule 出发，在低级 capsules 中寻找它存在的证据，这个过程，就是 Dynamic Routing。

如果某一个高级 capsule 中每一个属性，都能在 1152 个初级 capsules 中，找到 “对应的” 一个或多个 capsules，那么就证实了高级 capsule 中的这个属性，确实在图像中存在。

如果某一个高级 capsule 中的全部 16 个属性，都能在 1152 个初级 capsules 中，找到存在的证据，那么就认定这个高级 capsule 在原始图像中存在。

如果有多个高级 capsules，都能在 1152 个初级 capsules 中，找到各自存在的证据，那么就认定在原始图像中存在多个高级 capsules。

Capsule 与先验知识

回到前文的问题，假如人为强制指定 capsule 中各个 x_{i} 的物理意义，换句话说，人为强制指定 capsule 向量元素 x_{i} 与实体属性之间的关联关系，是否会有助于提高识别精度，降低训练数据的数量？

假如人为强制指定 capsule 中某个 x_{i} 用于表达图像中是否存在圆圈，那么需要改变训练数据。

现在的训练数据，由输入和输出一对数据构成。输入数据是原始照片，输出数据是标签，说明原始照片中含有哪些数字。

如果要人为指定手写体数字的 capsule 中的元素 x_{i}，那么需要改变训练数据。譬如输入是原始照片，输出的标签，是说明这张照片中是否有圆圈。

改变训练数据有什么意义？一个可能的意义是transfer learning。

一张轮胎的照片中，也包含圆圈。用现在的方法，轮胎的照片无助于手写体数字的识别，但是用 transfer learning，可以用轮胎的照片，来训练机器识别圆圈，然后把识别圆圈的算法模块，融合到手写体数字的识别系统中。

至于用这种方法，是否能够提高识别精度，降低训练数据的数量，需要做实验来验证。

Parse Tree：实体特征的多层次分解，及与先验知识的融合

在原始图像中，识别手写体数字，这个实验比较简单。

假如设计一个难度更高的实验，在原始图像中，识别自行车。自行车由两个轮胎，两个脚踏板，一个龙头和骨架等等构件组成。

要完成这个实验，需要先识别原始图像中，是否存在轮胎、脚踏板、龙头和骨架等等构件。然后识别这些构件之间的位置关系。

老爷子提议，用 Parse Tree 来分解整个识别任务，从原始图像，到图像特征，到不同构件，到自行车的识别。

Parse Tree 的生成，当然可以完全靠机器，从大量训练数据中自动学习。而且是一气呵成地完成各个环节，从原始图像，到图像特征，到不同构件，到最终的自行车识别。

但是如果融合先验知识，人为预先指定 Parse Tree 的结构，或许有助于把识别自行车的问题，拆解为若干子问题，分别识别轮胎、脚踏板、龙头和骨架等等构件，然后再把子模块整合成为自行车的识别系统。

当然，把大问题拆解为若干子问题，需要针对各个子问题，准备各自的训练数据。

这样做是否有利于提高识别精度，降低训练数据的数量，也需要做实验来验证。

最后编辑于：2017.12.11 15:23:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

【一文读懂Hinton最新Capsules论文】CNN 未来向何处去

推荐阅读更多精彩内容