×

卷积神经网络工作原理研究 - 语义和特征

96
中和软件技术推进
2017.04.10 10:42* 字数 781

关于Filter的意义

本章节参照了zhihu.com的内容。所以我完整引用,不进行任何修改。版权归原作者所有

Paste_Image.png

你眼睛真实看到的图像其实是上图的下半部分。而后经过大脑的层层映射后才出现了你脑中所“看见”的图像。CNN的卷积层部分可以理解成是学习你的“眼球结构”。

Paste_Image.png

同一个filter内部的权重是相同的,因为它用一个“抓取方式”去侦测特征。比如说“边缘侦测”。 你也注意到了,我们的眼睛不只观看一次,等到扫描完该特征后,另一个filter可以改变“抓取方式”去侦测另一个特征。所权重在同一个filter内是共享的理解是该filter对整个图片进行了某个特征的扫描。

Paste_Image.png

提取若干个特征后,就可以靠这些特征来判断图片是什么了。

大家应该知道大名鼎鼎的傅里叶变换,即一个波形,可以有不同的正弦函数和余弦函数进行叠加完成,卷积神经网络也是一样,可以认为一张图片是由各种不同特征的图片叠加而成的,所以它的作用是用来提取特定的特征,举个例子,比如给定一张图片,然后我只想提取它的轮廓,于是就需要卷积神经网络。


语义信息和高层神经元

版权信息:本节出于以下文章
瞎谈CNN:通过优化求解输入图像

对于CNN,有个很基础的认识:低层的部分学习纹理等简单信息,高层部分学习语义信息。在《Intriguing properties of neural networks》中的另一个发现是,CNN中表示高层学习到的语义信息的,并不是某一个神经元,而是高层神经元构成的空间。这个看上去有些显然的结论的一种佐证方式又是对输入图像进行优化:

公式

其中是神经元激活值对应的向量,v是一个随机向量。另外这和前边的优化有些许不同,x的取值范围限定在已有的图片集里。其实就是在某个高层响应的空间里,沿着某个方向挑选了一些该方向上值最大的图片。最后的结论是,无论是沿着某个随机方向找到的图片,还是以某一个神经元响应最大找到的图片,都能看出一些语义上的共性,比如下图:

配图

黑线以上是最大化某个神经元响应的样本,共性挺明显,黑线以下是最大化某层特征空间中某个方向响应的样本,共性也挺明显。

机器学习
Web note ad 1