Controlling Style and Semantics in Weakly-Supervised Image Generation

摘要

  1. 弱监督复杂场景的条件图像生成。
  2. 用户可以对场景中出现的对象进行精细控制
    • 利用稀疏语义遮罩来控制对象的形状和类
    • 利用文本描述或属性来控制局部和全局样式
  3. 提出了一种分解背景和前景的两步生成方案。

方法

骨架

我们主要关注的是复杂场景的有条件生成,即用户可对场景中出现的对象进行精细的控制。之前的工作主要集中在从真实mask生成物体、或基于简单手绘mask生成户外场景,但前者需要大量标注工作,后者不适用于复杂数据集(如COCO)。我们提出的模型以mask与文本/属性为条件,使用户可以通过各种图像操作生成不同的图像(移动、删除实例、改变物体颜色、改变整体风格等)(通过mask、属性、文本的不同去控制)。其中,通过文本控制是无监督学习。

稀疏mask:

我们不需要精确的语义分割mask,而是用从large-vocabulary detector自动产生的mask。与基于语义分割的弱监督设置相比,这个过程更少需要人工标注。我们对类的设置包括了可数物体(人、车),物体的一部分(灯、窗、门),与不可数的物体(草地、水、雪)。对于后一类,对象检测器仍然可以提供有关背景的有用稀疏信息,同时保持模型自治以填补空白。

两步生成:

没有约束的情况下,模型会从数据集中学习物体间的相关性,例如狗常站在绿草坪上,而斑马常站在黄色草坪上。但如果我们想要改变图中某一个物体(把狗换成斑马),这种关联是不可取的(否则小改变将带来整张图片的不同)。所以,我们采用两步生成的策略,第一步生成图像的背景,第二部生成图像的前景。背景包括静态或不可数的物体(建筑、道路、草坪、树、湖等),前景包括动态且可数的物体(车辆、动物)。所以,在改变前景时,我们可以通过冻结背景来避免上述问题。

属性:

允许童虎使用属性控制实例样式,例如颜色、材质(木材,玻璃)、属于特定类别(无叶、雪白)。也可以融合多个属性(黑+白)或没有属性(生成器采用预设方案)。

文本:

也可通过文本控制图片风格,这种控制关注图像的全局风格(如天气、一天中的时间)。自然语言比上述的属性更难学习,我们在此引入一个新的注意力模型解决它。

结构

我们设计的条件机制有足够的通用性,可以附加到现有的条件生成模型中。我们的实验用SPADE作为骨架,

D:multi-scale discriminator + feature matching loss

G:pretrained VGG + perceptual loss

一步模型:

通过修改生成器的输入层和CBN(conditional batch normalization)层,在模型中加入属性/文本等信息。也就是图中的S块,具体结构在后面。

S块:

对于类语义,输入的稀疏mask通过像素级embedding变成64维向量,To add style information, we optionally concatenate another 64D representation to the class embedding (pixel-wise)。

将得到的特征映射与一个3×3的核进行卷积,通过一个ReLU非线性并再次卷积,分别生成两个特征映射γ和β,即CBN的增益(gain)和偏差(bias)。

之后,可以求得y:y= BN(x)⊙(1 +γ) +β,其中BN()是无参数BN。

属性:

对于属性,我们采用bag-of-embedding的方法,从每个属性中学习到一个64维向量。将他们分配到每个实例并广播到这个实例的轮廓,加起来,并与上面的class embedding 进行拼接。

我们创造了“multi-hot Attribute mask”,1所在的位置表示该属性应用到这个实例,0表示没有。将这个mask通过1*1卷积,64通道输出。

文本:

用注意力,BERT,微调了最后的一层。这里不细看了。

两步生成:

如图,G1生成背景、G2生成符合背景的前景。

G1:

一个难题是:数据集中没有单纯的背景图片,所以无法针对G1训练鉴别器。为此,我们使用一个单一的最终鉴别器,并以鉴别器的梯度(加上辅助损耗)重定向到正确的生成器。

α是一个单通道图像,在[0,1]由一个sigmoid限定。α=1,梯度被定向到前景,α=0,梯度被定向到背景。我们监督αf产生二元交叉熵损失,并随时间衰减。

G1要在不渲染前景信息的前提下利用前景信息,它将背景mask输入s块得到γ与β。又将全部mask输入savg块(加了一个平均池化),移除位置信息。这样,前景信息只用于偏置G1,无法在精确的空间位置渲染。

G2:

运用相同的S块,但不同是它采用前景mask作为输入。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容