Tensorflow实现Neural Style

96
zhaozhengcoder
2018.01.10 21:46* 字数 770

最近深度学习里面最cool的一个模型CNN卷积神经网络,搞明白了cnn的基本模型之后,跑了几个CNN的模型,算是CNN有一个基本的认识了。

这几天打算进阶一下,熟悉一些更复杂的模型。前几天在网上很火的图片风格合成,利用vgg学习内容图片A + 背景风格图片B的特征 ,然后生成一个新的图片,类似下图。

参考了一些paper和其他人分享的博客,打算自己实践一下。

  • 基本原理

对于一张图片的输入,CNN的每一层会捕捉到不同的特征(这个特征取决于loss function的设计)。但总的来说,CNN的底层捕捉简单的线条和边缘,但是随着网络的深入,CNN可以学到更加复杂和抽象的特征。如下图所示:

人脸识别的一个例子

Neural-style的原理也是相似的,利用CNN的提取内容图片的特征和风格图片的特征,将他们融合到一张随机噪声的背景图上面。

  • 具体实现

这里的CNN的模型用的是Vgg(包含16个卷积层和5个池化层),模型如下图所示:


所以,将内容图片和风格图片放入vgg里面之后,同上面讲的道理一样,vgg的每一层会捕捉到不同的特征,层数越高,捕捉到的特征会越复杂。如下图所示,(d)和(e)较好地保留了图像的高阶内容(high-level content)而丢弃了过于细节的像素信息。

  • 在实际实验中,内容层和风格层选择如下:
    内容层:conv4_2
    风格层:conv11, conv2_1, conv3__1_, _conv4_1, conv5_1

  • 训练过程:
    以白噪声图像作为输入(x)到VGG19网络,conv4_2层的响应与原始内容图像计算出内容损失(Content Loss)。
    “conv1_1, conv2_1, conv3_1, conv4_1, conv5_1”这5层的响应分别与风格图像计算出风格损失,然后它们相加得到总的风格损失(Style Loss)。
    最后Content Loss + Style Loss = Total Loss得到总的损失。采用梯度下降的优化方法求解Total Loss函数的最小值,不断更新x,最终得到一幅“合成画”。

  • 计算loss的过程


  • 实现

网上很几个这样的例子,但是基本上都是拿paper的源码跑的。这个源码里面的代码,对刚刚入门tensorflow的新手很不友好。我自己写了一个比较易读的版本。核心代码,如下:

def main():
    net = build_vgg19(VGG_MODEL)
    # 内容图片
    content_img = read_image(CONTENT_IMG)
    # 风格图片
    style_img = read_image(STYLE_IMG)
    # 噪声图片
    noise_img = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, 3)).astype('float32')

    sess = tf.Session()
    init = tf.global_variables_initializer()
    sess.run(init)

    #把content_img作为Vgg的输入,获得每一次的输出,存在content_outputs里面
    sess.run([net['input'].assign(content_img)])
    content_outputs={}
    for item in CONTENT_LAYERS:
        content_outputs[item[0]]=sess.run(net[item[0]])

    #把style_img作为Vgg的输入,获得每一次的输出,存在style_outputs里面
    sess.run([net['input'].assign(style_img)])
    style_outputs={}
    for item in STYLE_LAYERS:
        style_outputs[item[0]]=sess.run(net[item[0]])

    for key in content_outputs:
        print ('content : ',key)
    
    for key in style_outputs:
        print ('style : ',key)

    #计算loss
    #这里的key指的是某一层;content_outputs[key]是vgg预训练模型中每一层的输出;net[key]而是网络不断迭代后每一层的输出
    cost_content=sum([build_content_loss(content_outputs[key],net[key]) for key in content_outputs])
    cost_style  =sum([build_style_loss  (style_outputs[key],net[key])   for key in style_outputs  ])
    #cost_content=cost_content+sum(build_content_loss(content_outputs[key],net[key]))
    
    cost_total = cost_content + STYLE_STRENGTH * cost_style
    optimizer = tf.train.AdamOptimizer(2.0)
    train = optimizer.minimize(cost_total)

    #noise_img 
    sess.run(tf.global_variables_initializer())
    sess.run(net['input'].assign( INI_NOISE_RATIO * noise_img + (1.-INI_NOISE_RATIO) * content_img))
 
    if not os.path.exists(OUTOUT_DIR):
        os.mkdir(OUTOUT_DIR)
    sess.run(train)
    
    for i in range(ITERATION):
        sess.run(train)
        if i%500 ==0:
            result_img = sess.run(net['input'])
            print (sess.run(cost_total))
            write_image(os.path.join(OUTOUT_DIR,'%s.png'%(str(i).zfill(4))),result_img)

    write_image(os.path.join(OUTOUT_DIR,OUTPUT_IMG),result_img)
  • 结果


  • 环境

    Python 3.5
    Tensorfow 1.2
    GPU 1080ti  
    #之前是在自己的电脑上面用cpu跑的,太慢了7~8个小时太能跑完,
    #在服务器上面用GPU大概在20分钟左右
    
  • Github
    https://github.com/zhaozhengcoder/Machine-Learning
    在tensorflow 进阶的目录下面

机器学习入门