Image Emotion Computing(1)图像情感计算翻译

需要原文的私信或者邮件ynu_zhanghao@163.com,不对之处望请指正!
其博士论文在这儿
在此之前我觉得看看这个还是比较不错的

Image Emotion Computing

==================================================================

摘要

       图像能够传达丰富的语义信息,而且能够使观众产生强烈的情感。我的主要从两方面来预测图像情感:语义鸿沟和情感差异(affective gap and subjective evaluation)。为弥合语义鸿沟,我们用艺术上的原则来获取情感特征从而识别图像的主要情感。由于每个人对于图像包含的情感认识都是高度主观和不同的,我们为不同的用户提出了以用户为中心的个性化情感感知和以图像为中心的每个图像情感概率分布的预测。为解决主观评价的问题,我们从Flickr上下载建立了一个大型数据集Image-EmotionSocial-Net ,在维度情感分类上有着超过1百万图片和8000的用户量。不同类型的因素都会影响图像情感的认知,包括视觉内容、社会背景、时间推移和位置影响等。我们试图通过提出的滚动多任务超图学习( rolling multi-task hypergraph learning)将它们联系起来,通过共享稀疏学习(shared sparse learning)对离散和连续的情感分布进行建模,还设计实现了几个基于图像情感的应用。
Keywords:Image emotion; principles-of-art; personalized perceptions; emotion distribution; hypergraph learning; sparse learning
关键词:图像情感;艺术原则;个性化感知;情感分布;超图学习;稀疏学习;


1. 引言

       多媒体内容爆炸式的增长,这对图像和视频的处理和理解提出了更高的要求。相较于低层级的视觉特征,人们的认知水平和情感水平只能高层次的语义上感知和理解图像、视频[9]。以往关于图像内容分析的研究主要集中在理解图像的认知方面,即描述实际内容,如目标检测和识别。 然而随着公众对数字摄影技术的使用量加剧,对于图像情感表达的要求越来越高,在最高语义层次(即情感层面)对图像内容的分析就显得越来越迫切。

       我的博士论文主要研究在情感层面上图像内容分析,简称图像情感计算(Image Emotion Computing, IEC),旨在理解用户在观看图像后的情感反应。情感一般表现为两种典型模式:离散情感状态( categorical emotion states, CES, 范畴观)和维度情感空间(dimensional emotion space, DES, 维度观)[35]。 因此,传统方法在IEC上执行的三个不同的任务:情感图像分类[32, 16, 14,11, 15, 1,35, 2],回归[15, 35]和检索[26, 43]。 情感图像分类和回归尝试为给定的图像分配一个预定义的情感类别和图像的平均维数,而情感图像检索的目的则是对给定的图像检索出相似的情感图像。就上述三项任务,目前大多数方法都是以图像为中心( image-centric)的。

图1:从不同方面说明图像情感预测。预期的情绪(C)和个性化的情感(D)是红色的基于元数据的使用关键词分配(B)从上传和不同观众的评论。(e)基于高斯混合模型(GMM)的期望最大化(EM)算法,估计了期望、个性化和平均情绪的差异,而轮廓线是估计的情感分布。

       IEC(image emotion computing)的发展主要局限于两方面的挑战:第一个就是语义鸿沟(affective gap),它可以定义为 “可测量的信号属性(通常指特征)与用户通过感知信号呈现出预期的情感状态之间的不一致”;其次就是图像情感感知和评价的主观性,可以认为是 “受文化背景、教育地位和社会背景的影响,不同的观众在一幅图像中产生的情感是高度主观的和不同的”[12]。

       在博士研究阶段,我们研究了IEC的上述挑战,并且试图回答如下问题:(1). 与广泛使用的低层次的特征相比,我们能够找到一些更易于解释、与感情有着更强联系的高层次特征吗?(2). 观众的情感是主观的、不同的吗?如果是,那么我们如何处理以用户为中心的情感预测? (3). 对于以图像为中心的情感计算,我们可以预测情感分布而不是情感类别或者维度值吗?

2. 技术发展水平

       Traditional IEC.现有的研究主要集中于寻找能够表达情感的特征从而能够更好的弥合语义鸿沟。文献[32]中提取的用于图像情感分类的整体特征包括Wiccest特征和Gabor特征。Machajdik等人[16]从心理学和艺术理论中提取特征,如颜色、纹理和构图。Lu等人[15]通过形状特征研究了情感的可计算性。Solli 和Lenz[22]用情感直方图特征和由兴趣点周围的块导出的bag-of-emotion特征进行情感分类。Yuan等人[33]利用中层的场景属性进行二值情感分类。训练用的数据集通常是小规模的,如IAPS[13, 18],Abstract[16], ArtPhoto[16] 以及 GAPED[4]。
       大部分用的模型也是基于机器学习的方法,朴素贝叶斯[16],SVM[15]和稀疏学习[14]用于情感图像分类。SVR被用做情感图像回归[15]和检索[26]模型。

       Social media based IEC.相比于传统的IEC,基于社交媒体的IEC可以提供大量数据和社会特征[5,34],它们可以用于模拟解决主观评测的问题。Jia等人[11]通过因子图学习(factor graph learning)进行建模,简单的使用了上传图像的时间和图像所有者的ID作为社会特征用于情感图像分类,文献[1, 2]在不使用社交特征(类似于[21])的情况下,提出基于社交媒体数据的视觉情感本体论和检测器来检测高级形容词名词对。不同用户间的社交关系在[23,28,30,29]中已经阐明,文献 [23,30]使用了这种社交关系来模拟一个用户的情绪对另一个用户情绪的影响,文献[29]利用社会因素与视觉和文本的结合来发现社会事件的代表性图像,Yang等人[28]通过混合图学习(hybrid graph learning)的社会因素来预测个人情感,但仅简单对中国微博的情感分了类,并未考虑情感的时间因素。
       从情感表示模型的观点而言,上述 IEC 的工作均是基于 CES 或者 DES 的。三维价值激励优势(3-D valence-arousal-dominance space,VAD space)空间[13],二维价值激励空间(2-D valence-arousal space,VA space)[15],以及三维活动热重因子(3-D activity-weight-heat factors)[22]被用做DES模型,而其余工作认为情感包括二进制情绪只是少数基本的类别。
       情感内容分析也被广泛用于文本[17]、演讲[17]、音乐[31]和视频的研究[41,40,39,25]。

3. 研究综述

       这篇博士论文打算研究IEC的不同方面,研究的概况如图2所示。类似于[9],图像情感分为预期的情感和实际(个性化)的情感, As expected emotions are difficult to obtain in practice, dominant emotions are used as alternatives.正如预期的那样情绪在实践中很难获得,主导情绪被用作替代品。

       对于以图像为中心的情绪(image-centric dominant emotions),主要的挑战是语义鸿沟。情感分类获取的低层特征大多是基于艺术元素的(elements-of-art, EAFF),这些元素是一个艺术家创作艺术品的构件或配料,包括颜色纹理等。然而EAFF与感情之间的联系是很微弱的,而且人们无法直接解释EAFF[10,16]。对于第一个问题,我们提出基于艺术原理(principles-of-art, PAEF)提取情感特征来识别以图像为中心的主导情绪(4.1节)。
       对于个性化的情绪( personalized emotions),主要的挑战是情感感知的主观性。除[12,20]外,我们通过大量的研究表明,不同观众的情绪是主观不同的,如图1 (b) (c) (d)所示。对于这个问题,我们建立了一个名为Image-Emotion-SocialNet的大规模数据集,以便为每个观众预测个性化的情感感知。在这种情况下,情感预测任务变成了以用户为中心。提出了滚动多任务超图学习,将影响个性化图像情感感知的不同类型因素联合起来(4.2节)。

       通过对多数人观察的图像进行统计分析,我们发现,虽然个性化的情绪感知是主观不同的,但也遵循一定的分布(参见图1 e)。对于第三个研究问题,我们针对每幅图像提出预测以图像为中心的情感分布代替单一的主导情感,这可以表明用户之间情感反应的差异。一般来说,分布预测任务可以被形式化为回归问题。对于不同的情绪表征模型,分布预测稍有不同,对于CES,任务旨在预测不同情绪类别的离散概率,其总和等于1,而对于DES,任务则转变为预测指定连续概率分布的参数,我们提出共享稀疏学习来预测这两种分布(第4.3节)。
       此外,我们设计并实现了基于图像的情感领域的一些应用,如情感图像检索和基于情感的图像化(4.4节)。

4. 方法

       为解决介绍中遇到的挑战,我们进行了一些以图像为中心和以用户为中心的IEC的研究,在[ 35, 38, 37,43, 42 ]中对研究的方向、详细方法和实验结果进行了深入的讨论。

4.1 基于艺术原理的情感特征提取
       在艺术品中安排和编排艺术元素的规则、工具或指导方针被称为艺术原则,它考虑了各种艺术方面,包括平衡(对称),强调(对比),和谐(统一) ,品种,层次,运动,节奏和比例 [3,10]。我们系统地研究和规范了以前的6个艺术原则,而没有考虑节奏和比例,因为它们含糊不清,对于每个原则,我们在[3,10]的艺术理论下都解释了其概念和意义,并将这些概念转化为可量化测量的数学公式。
       以强调为例:强调,也被称为对比,是用来强调某些元素的差异,强调可通过使用元素的突变来完成,通常用于指导和吸引观众对设计中最重要领域或中心的关注,我们采用Itten色彩对比度和注意力集中度(RFA)来衡量它,文献[35]详情。

4.2 个性化情感预测

4.2.1 The Image-Emotion-Social-Net 数据集

       因目前暂无可用于个性化情感预测的公共数据集,我们从Flickr上下载并建立了一个名为Image-Emotion-Social-Net的大规模数据集,为获取个性化的情感标签,首先使用传统的基于词典的方法从上传者获得标题、标签和描述词,再对文本分割以获得预期的情感,并从观众的评论中获得实际情绪的评论。对于CES,我们使用的是在心理学上严格定义的8个类别[18],为了获得标签,我们采用基于同义词的搜索策略[1,11],每个情绪类别的几十个同义词从公共同义词搜索站点(www.thesaurus.com/browse/synonym)获取并且经手动验证。以最常见的同义词情感范畴为基础。需要注意的是,若相关文本在目标同义词附近存在否定词,如“我不高兴”,那么我们会删除这张图片。对于DES,基于最近公布的13,915个英语引理的VAD规范[27],我们计算了分割结果的 愉悦度-激活度-优势度 各自的均值作为基础,经过细化,有11347位用户上传了1,012,901张图片包含1,434,080个情感标签,并有106,688位用户进行了评论。

4.2.2 Rolling Multi-Task Hypergraph Learning

       我们的目标是预测用户在社交网络上观看图像后的情感,直观的说,视觉内容,社交上下文,时间演变和位置影响这四个因素可以影响情感感知,可被用于情感预测。

       我们提出迭代多任务超图学习(rolling multi-task hypergraph learning, RMTHG)就结合了这些因素。形式上,一个社交网络中的用户 Ui 在 t 时间看了一张图片 Xit,在观看图像后他的情感感知是 Yit。在看图片 Xit 之前,他可能已经看过很多图片了,我们认为他最近看过的一些图片都会影响其当前的情绪,把其中一部分选出来作为一个集合 Si,则情感社交网络被形式化为一个混合超图(hybrid hypergraph) G=<{U, X, S}, ε, W>。顶点集合 V = {U, X, S} 中的每个顶点 v = (u, x, S) 是一个复合三元组 (u, x, S),其中 u 代表用户,x 和 S 是 u 看的当前的图像和最近看过的图像集,分别命名为“目标图像”和“历史图像集”, ε 的每个超边(hyperedge) e 表示基于三元组的一个分量的两个顶点之间的边,并且分配有权重w(e), W 是边权重的对角矩阵。

       这种顶点集合公式可以使我们的系统为四个因素建模:目标图像和历史图像集合中的视觉描述符都可以被提取以表示视觉内容; 用户关系可以从用户组件中被利用来考虑社交情境; 过去的情绪可以从历史图像集推断出来,揭示时间的演变; 位置影响被嵌入到与目标图像和历史图像集相关联的信息中。 因此,我们可以基于复合顶点的每个元素来构造 hyperedges。

(简书没办法插公式,我也很捉鸡,我配合这个图片给大家说说)


       有N个人 1~N 和 一些相关图片,我们的目标就是研究这些图像与用户关系之间的相关性,设训练集的顶点为{(un, x_Nj, S_Nj)} ,……,{(un, x_Nj, S_Nj)} ,对应的标签Y1,……,YN,那么与指定用户相关的所有图像的待估计相关度的值为 R1,……,RN,把 Y 和 R 表示为 式子(1),提出的Rolling Multi-Task Learning 可以作为一个半监督学习,用公式(2)最小化Hypergraph结构上的 empirical loss 和正则化因子。

                     其中λ是折衷参数,Γ= ……是 empirical loss,Ψ=…… 其中的R是超图结构上的正规化器,
                     H 是关联矩阵Dv和De是两个对角线矩阵,对角线元素表示顶点度和边缘度。
       到此为止呢我们就可以用标准的Hypergraph Learning[44,6,5,7]来求解方程(2)了,个性化情绪感知预测的细节请参考[36]。

4.3 情感分布预测
       有两类概率分布:离散的和连续的,分别对应于CES和DES。
       对于离散概率分布,目标是预测不同感情类别的离散概率并且概率总和为 1 [38],对于连续概率分布,首先应该指定它的分布形式比如是高斯分布还是指数分布,我们对一个例子(图1 e)统计分析后有两点发现:(1)感知维度情感遵循一定的分布,而这种分布可以明确的分为两类:积极的和消极的感情;(2)通过两个二维高斯分布的混合可以很好地模拟 VA 情感标签。基于此,我们指定 GMM 为 VA 感情表情的分布:

其中(大家注意 “l” 是 L的小写)
x =(v; a)是成对的VA情感标签
μl 和 Σl 是第 l 个高斯分量的均值向量和协方差矩阵
πl 是混合系数,满足

本文中 L = 2, θ = (μ1; Σ1; μ2; Σ2; π1; π2),由此,连续分布预测的问题转向为预测参数 θ 。

       我们提出共享稀疏学习来预测分布并提供几个baselines,详情请参阅[38,37]。

4.4 基于情感的一些应用
       第一个应用是情感图像检索,其目标是检索与给定图像具有类似感情的图像。 我们使用多图学习作为特征融合方法来有效地探索不同特征的互补[43],包括低层次的GIST和艺术元素,中层属性和艺术原则,高层次的ANP和表达[43]。
       第二个应用是基于情感的图像音乐化,旨在让人们在观看时形象生动。对于图像情感的近似情感的音乐是
选择用于将这些图像音乐化[42]。

下接
https://www.jianshu.com/p/87597c2fd2b0

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269