Interaction System(2):Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Fee...

  • CVPR2021. Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback

  • 摘要

  • 背景

    • 面向细节的零售的对话界面比经典的基于关键字的搜索界面更自然、更具表现力和用户友好性。
  • 主要工作

    • 本文介绍了新的 Fashion IQ 数据集来支持和推进交互式时尚图像检索的研究
    • Fashion IQ 是第一个提供人工生成描述的时尚数据集,这些描述可区分相似的成对服装图像以及由真实产品描述和这些图像的派生视觉属性标签组成的辅助信息。
    • 本文提供了对 Fashion IQ 数据特征的详细分析,并提出了基于Transformer的用户模拟器和交互式图像检索器,可以将视觉属性与图像特征、用户反馈和对话历史无缝集成,从而提高了最先进的性能在基于对话的图像检索中。
    • 该数据集有利于进一步开发更自然和现实世界适用的对话式购物助手

image.png
  • 在这项工作中的主要目标之一是为研究人员提供强大的资源来开发基于交互式对话的时尚检索模型。 为此,本文引入了一个新的benchmark,即Fashion IQ。
    • 该数据集包含各种时尚图像(连衣裙、衬衫和上衣和 T 恤)、文本描述形式的辅助信息和产品元数据metadata、属性标签,以及最重要的是,人工收集的大规模的高质量相关描述。

Image and Attribute Collection

  • 构成Fashion IQ 数据集的时尚产品图像最初来自产品评论数据集, 选择了三类产品项目:连衣裙、上衣和 T 恤和衬衫。 对于每张图片,点击了数据集中可用的产品网站的链接,以提取相应的产品信息
  • 利用产品网站中包含的丰富文本信息,我们从中提取时尚属性标签。
    • 产品属性是从产品标题、产品摘要和详细的产品描述中提取的。为了定义产品属性集,我们采用了 DeepFashion中策划的时尚属性词汇表,这是目前最广泛采用的时尚属性预测基准。
    • 这总共产生了 1000 个属性标签,这些标签进一步分为五种属性类型:纹理、织物、形状、零件和样式。我们遵循与 [38] 中类似的过程来提取属性标签:如果其关联的属性词在元数据中至少出现一次,则认为图像的属性标签存在。在图 4 中,我们提供了产品评论数据集中提供的原始辅助信息和提取的相应属性标签的示例。为了完成和去噪属性,我们使用在 **DeepFashion **上预训练的属性预测模型。

Relative Captions Collection

  • 用户可能通过描述通用关键字开始搜索,这些关键字可以剔除完全不相关的搜索实例,然后用户可以构建自然语言短语,这些短语在指定细微差异方面非常强大在搜索目标和当前搜索结果之间。换句话说,相对描述比使用关键字或属性标签过滤更有效地缩小细粒度案例的范围
  • 为了确保相关描述可以描述参考图像和目标图像之间的细粒度视觉差异,我们利用产品标题信息来选择相似的图像以使用相关标题进行注释。具体来说,我们首先计算每个产品标题中出现的所有单词的 TF-IDF 分数,然后对于每个目标图像,我们通过在数据库中(在同一时尚类别内)查找图像将其与参考图像配对每个重叠词的 TF-IDF 权重的最大总和。我们为三个时尚类别中的每一个随机选择了 10,000 张目标图像,并为每对收集了两组标题。不一致的标题已被过滤。
  • 为了收集 Fashion IQ 数据的相关标题,我们使用众包收集数据。简而言之,用户位于在线购物聊天窗口的上下文中,并指定了提供自然语言表达的目标,以便与所提供的搜索目标的视觉特征相比,向购物助理传达搜索目标的视觉特征。
  • Fashion IQ 的相关标题的长度和每张图片的属性数量在所有三个类别中具有相似的分布。在大多数情况下,属性标签和相关标题包含补充信息,从而共同构成确定图像之间关系的更强基础。
  • 为了进一步了解相对标题与经典属性标签相比的独特属性,我们对 200 个随机选择的相对标题的子集进行了语义分析。分析结果如下图所示中。Fashion IQ 中几乎 70% 的所有文本查询都由组合属性短语组成。许多标题是简单的形容词-名词对(例如“红樱桃图案”)。然而,这种结构比简单的“属性包”表示更复杂,构建起来很快就会变得很麻烦,需要大量的词汇和复合属性,或多步骤组合。此外,超过 10% 的数据涉及更复杂的组合,通常包括构成对象的直接或相对空间参考(例如“侧面和底部的粉红色条纹”)。分析表明,相对描述是一种比属性标签更具表现力和灵活性的注释形式

Multimodal Transformers for Interactive Image Retrieval

  • 本文在提出的框架基础上,提出利用多模态Transformer进行模型改造。
    • relative captioner transformer 相对描述Transformer
      • 调整了转换器架构,然后将其用作用户模拟器来训练我们的交互式检索系统
    • multimodal 多模态检索
      • 以统一的方式结合图像特征、时尚属性和 用户的文本反馈。 与基于 RNN 的方法(例如,[18])相比,这种统一的检索架构在包含的模态方面具有更大的灵活性,只要包含新的模态,就可能需要进行系统的修订

Relative captioner Transformer

  • 给定目标图片和参考图片,目标就是描述用文本描述两个图片的差异。
  • 使用图像视觉特征和提取的属性特征
  • 视觉特征捕捉到了 Ir 和 It 之间的细粒度差异,属性特征有助于突出两种服装之间的显着差异。
    • 具体来说,使用 CNN 编码器 fI(·) 对每张图像进行编码;
    • 为了从每张图像中获得突出的时尚属性集,我们使用属性预测模型 fA(·) 并从参考中选择前 N = 8 个预测属性 {ai}r 和目标 {ai}t 图像分别基于 fA(Ir) 和 fA(It) 的置信度得分。 然后,将每个属性嵌入到基于词编码器 fW(·) 的特征向量中。
  • 最后,Transformer模型关注 Ir 和 It 的图像特征及其属性的差异,生成相对差异描述: {w_i} = f_R(I_r,I_t)= (f_I(I_r) − f_I(I_t),f_W({a_i }_r),f_W({a_i}_t)); 其中{wi}是为标题生成的单词序列。
    • 这里直接使用了图像embedding的差值来取特征差。

Dialog-based Image Retrieval Transformer

  • 为了启动交互,系统可以选择随机图像(假设没有关于用户搜索意图的先验知识),或者根据用户基于关键字的查询检索图像。 然后在每一轮,用户提供基于当前检索到的图像的文本反馈以引导系统朝向目标图像,并且系统基于迄今为止接收到的所有用户反馈以新检索到的图像进行响应。
  • 在这里,我们采用了一种转换器架构,使我们的模型能够在每次对话回合期间关注对话的整个多模式历史。 之前框架中用的是GRU,后者必须系统地整合来自不同模态的特征,并将历史信息整合到低维特征向量中
  • 使用多模态Transformer比RNN类方法更加灵活。


Experiments

  • 作者与之前第一个提出基于自然语言的交互系统进行了对比, 效果有明显提升。


Conclusion

  • 本文的主要贡献在于清晰地介绍了一个数据集 用于基于自然语言的交互图像检索研究。
  • 总体文中模型的框架与之前的模型一致。

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,646评论 4 366
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,979评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,391评论 0 250
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,356评论 0 215
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,740评论 3 293
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,836评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,022评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,764评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,487评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,728评论 2 252
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,200评论 1 263
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,548评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,217评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,134评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,921评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,919评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,766评论 2 274

推荐阅读更多精彩内容