对抗生成网络-文字到图片的合成Generative Adversarial Text to Image Synthesis

新的一年,新的开始,好想发论文啊!废话不多说,下面讲下文字到图片的生成。


文字生成图片
最有代表的一张图怕是这个了,牛人,大佬

RNN可用来对文字进行判别和表示,GAN可以做图片生成,那么如何将字符翻译到图像像素呢?这篇论文给出了一个网络。使用RNN,来做图片生成描述,由于它是根据图片的内容和他前一个词生成下一个词,是遵循链式规则的。使用描述生成图片的话,能够正确表达文本的正确图像样例是很多的,比如鸟,生成的图片各种鸟都不能说是错的,文字的改变会影响大片区域pixel的变化,而且没有什么关联性。对于文本生成图像这个任务,我们将这个任务分解成两个子问题,首先,获取重要细节的----文本特征表示。然后,用这个特征合成一张较好的图片。下载原论文地址

原始GAN

Gan的损失函数

x表示真实图片,z表示输入G网络的噪声,而G(z)表示G网络生成的图片。

D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率。

网络架构

如果要输入文本信息?问题就来了,怎么得到文字信息。作者用了自己之前的方法《Learning Deep Representations of Fine-Grained Visual Descriptions》,不是这篇文的重点,他只是利用了这篇文章的文本特征表示,就是对文本有个向量表示,他的之前的方法表示的好所以就用了。

基于文本的DCGAN结构

文本描述向量——上图中深蓝色的条条,在生成网络和判别网络中都有输入。

看这个网络结构就可以知道,他大概是有一个噪声+向量(表达文字的)作为生成网络的输入。你会不会想,怎么不直接输入文本特征呢?留来大家想想。 而作者论文实际是这么来做生成网络的,首先我们将之前得到的文本向量,用网络全连接层对文本向量压缩,最后得到128维向量,在原来的随机噪声后面直接相连(concate)输入生成网络中生成图片。

对于判别网络呢,作者也加入了这个文本描述。加入的方式是空间复制,之前文章也有介绍过,就是对于N*N的feature map后面加其他模态信息的时候用的方法。在判别网络中,首先对输入做几个stride=2的卷积,每个卷积都带有spatial batch normalization和leaky Relu。当feature map的大小变为2x2时,则又一次对文本编码结果通过一个全连接层,将全连接层的结果拼接到这个大小为2x2的feature map上。然后对拼接结果做一个1x1的卷积和2x2的卷积。这篇论文判别器中加入文本信息,目的是的判别器要判别出文字描述与图片是否相符,后面详细介绍,就是文中提到的GAN-CLS。当然判别器本职工作是生成合理的图片。

下面就开始讲下论文中用到的两个两类判别器,GAN_CLS和GAN_INT.

GAN-CLS

为了回答《是否图片是按照描述生成的呢》提出了GAN-CLS,为了使判别模型能够拥有判断文本与图像是否匹配的能力,除了<假图,描述>和<真图,描述>外,添加第三种样本即<真图,不匹配描述> ,前两个生成合理图像,第三个与第二个判别对相比,生成匹配描述。这样,判别器就能将是否合理图片和是否匹配的信号都传递给生成器了。

整个网络的训练过程是如下图所示。

训练过程

数据集中每张图片对应了五个描述

一次选batch个图片进行训练,对每个图片进行以下操作

1.对于图片给出的描述编码

2.任意一个不正确的描述也编码

3.随机选择噪声向量

4.将噪声连接描述升入到生成器中

5.这时,利用3种 描述-图像对, <假图,描述>    <真图,描述>     <真图,不匹配描述>

6.判别器的损失函数,更新判别器。第十行

7.生成器的损失函数,更新生成器。第十二行

GAN-INT

什么是流形?可以略过奥。流形学习的观点是认为,我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的。因为在一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一地表示。首先流形能够刻画数据的本质。就像深度学习“特征学习”,所谓特征,就是能“表示事物本质的内容”,一般来说特征的维度应该小于数据本身。跟我们卷积得到特征也是小于数据本身的。我们如何来说明“模型学习到了流形”?前面提到了高维数据其实是由低维流形生成的。如果我们能模拟这个生成过程,再通过对低维流形的微调,应该能得到对应的“有意义且有道理”的高维数据。

根据文中说,嵌入对之间的插值是符合数据流形的,我自己认为,他做插值的目的就是让文本表示更符合本质, 就是说,文本表示尽量准确了。觉得是作者要套自己的论文,哭唧唧。也有可能有别的意思?

论文中贝塔取0.5,也就是融合两个文本,但文本长度是不变的,因为t1和t2是个向量,贝塔是参数

数据集我们能从论文中得到,用的是CUB bird 和 oxford-102 flower。为什么生成大量的额外的文本表示? 在 CUB bird中, 比如某张图片:“白色的海鸥”,另一张图片描述是“绿色的鹦鹉”, 那我利用插值方法,咦,生成一个新的描述,是什么呢?“绿色的海鸥” 有意思吧!这也就是作者说的zero shot,呵呵。 他的做插值的对象,不是一张图的几个caption之间,而是在整个数据集,因为海鸥的颜色只有那么几种,训练来训练去,都是这几种,不会有绿色,而在整个数据集中,也就是鸟这个数据集中,我们就可以得到其他鸟的的属性。耶耶耶!

风格

一般情况下很多时候一句话就是描述content的,那么背景和姿态是谁描述的呢?是不是噪声呢?哎嘿!在做风格转换的时候,首先使用S提取生成器一张图像的风格信息,得到s(style),然后将随机噪声替换为s,s和文本进行组合输入给生成器得到某风格下的图像。

x,我们选择的图片,S()是风格提取器,得到x的风格。然后生成器的输入变成了s+文本,得到风格图

实验

那我们首先看看,风格生成的怎么样。


风格背景和姿态

有两种风格。第一种我们可以将先前看到文本和先前看到的样式结合起来,但是在新颖的配对中,生成与训练期间任何看到的图像非常不同的合理图像。使用先前看到的属性,也就是说,多个视觉方面的文本表示。就跟我之前举例子一样。

风格拟合效果

基于base line的三种方法比较

看看视觉效果


如果不用插值的话,也就是前两个方法。我们发现生成的背景姿势都一样,颜色正确。插值后,后两种,生成的图像多样。能够匹配大部分或者全部的背景


对于花这个类,baseline 形态看起来更多样化。后两个方法看起来,生成的花几乎都是一种花

看看插值的作用


左边是对描述内容的文本插值,可以清楚地看到这个目标的变化结果。右边是对噪声进行插值,可以看到目标是不变的,背景变得平缓

生成多目标和背景

MS COCO上做实验。


对于多目标和变化背景亟待解决
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容