情感分类方法简介

情感分析（Sentiment analysis），又称倾向性分析，意见抽取（Opinion extraction），意见挖掘（Opinion mining），情感挖掘（Sentiment mining），主观分析（Subjectivity analysis），它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。
是NLP领域一个比较重要的课题。

情感分类有什么用

物品好坏分析：从评论中分析物品的好坏。例如电影好坏，是否值得看。
物品属性分析：例如某些价位区间几款车的舒适度，油耗，操作性能等。
产品反馈分析：产品哪些功能点最受用户喜欢，哪些功能最受用户吐槽。
网民舆情分析：例如分析美团外面清真事情等。
金融走势分析：例如，2012年5月，世界首家基于社交媒体的对冲基金 Derwent Capital Markets 上线。它会即时关注Twitter 中的公众情绪指导投资。
总的来说：情感分类分析再小到平台物品，产品本身，大到金融事情都有其用武之地。随着这波数据浪潮和人工智能浪潮的兴起。这一领域将会起到越来越重要的作用。

情感分类的任务有哪些

情感分析主要目的就是识别用户对事物或人的看法、态度（attitudes：enduring, affectively colored beliefs, dispositions towards objects or persons），参与主体主要包括

Holder (source) of attitude：观点持有者
Target (aspect) of attitude：评价对象
Type of attitude：评价观点
From a set of types：Like, love, hate, value, desire, etc.
Or (more commonly) simple weighted polarity: positive, negative, neutral
Text containing the attitude: 评价的文本，一般是句子或者整篇文档。

通常，我们面临的情感分析任务包括如下几类：

Simplest task: 文本态度是积极的还是消极的或者是中立的。
More complex: 将文本态度分为1到5个档次。
Advanced：探测评价对象，观点源以及文本态度。
下面内容将主要覆盖前面两类任务。至于Advanced 内容还需要再做调研。

情感分类的主要方法

基于情感词典的方法

基于词典的方法主要通过制定一系列的情感词典和规则，对文本进行拆句、分析及匹配词典（一般有词性分析，句法依存分析），计算情感值，最后通过情感值来作为文本的情感倾向判断的依据。
做法：基于词典的情感分析大致步骤如下：
对大于句子粒度的文本进行拆解句子操作，以句子为最小分析单元；
分析句子中出现的词语并按照情感词典匹配；
处理否定逻辑及转折逻辑；
计算整句情感词得分（根据词语不同，极性不同，程度不同等因素进行加权求和）；
根据情感得分输出句子情感倾向性。
如果是对篇章或者段落级别的情感分析任务，按照具体的情况，可以以对每个句子进行单一情感分析并融合的形式进行，也可以先抽取情感主题句后进行句子情感分析，得到最终情感分析结果。
其中最重要的是情感词典的获取。

是获取成熟的开放词典：例如：GI（The General Inquirer）， LIWC (Linguistic Inquiry and Word Count)， MPQA Subjectivity Cues Lexicon， Bing Liu Opinion Lexicon， SentiWordNet。
由于特点领域的需要有时需要根据给定的语料库做情感词典的学习。
常见的情感词典构建方法是基于半指导的bootstrapping学习方法，主要包括两步
2.1 Use a small amount of information（Seed）
2.1.1 A few labeled examples
2.1.2 A few hand-built patterns
2.2 寻找其它有相似极性的词：
2.2.1 使用连接词转折词等
2.2.2 在同一文档中同一窗口区间的词
2.2.3 在wordnet 中找同义词和反义词
2.2.4 使用种子词典和半监督学习的方法寻找相似极性的词，具体可以参考文献3 和 4

基于ML方法

基于词典的方法实现方便，高效。但主要缺点是靠谱的词典不好找，找到的基本都是特定领域的资料。另外由于自然语言千变万化的特点，规则难于满足大部分场景。效果相较于基于学习的方法效果有一定差距。
基于ML方法就是将情感分类当做普通的分类问题：例如(negative， positive， neuraltive)
这里面最重要的问题是特征的提取问题：常用的文本特征提取，一般是基于tf-idf，向量表示，之后分类模型常用的有 maxent， svm， naive bayes等。
由于TF-IDF，是高纬度高稀疏的，缺乏语义，特征表达能力很弱。从深度学习流行以来在文本表示领域出现了一些效果不错的方法。
其中比较重要的是采用词向量(例如word2vector, glove)进行表示。例如fasttext 就是采用此类方法进行分类，在时间复杂度远低于深度学习的方法的同时取得了相当的效果（至少在论文发表时是state of the art）。
在运算力和数据足够时：可以考虑采用CNN 和 RNN去自动学习语言中词的表示。
数据不足的问题：机器学习问题最重要的问题基本是数据问题了。往往在现实中大量标注的数据并不可获得，为了解决这个问题，一些有远见卓识的大牛正在借助迁移学习，生成对抗网络在解决这些问题，并且取得了一定的效果。具体可以参考文献5和6.
具体：利用容易获取的大量未标注数据,可以参考文献6，学习一个传统的语言模型，或者学习一个端到端的编码器，从而得到一个encoding model来表征输入的文本。再利用少量的标注数据（或购买，或少量人工标注），在第一步获得的encoding model的基础上进行supervised learning，在这个过程中对encoding model进行fine tune，获得最终的分类模型。

总结

本文主要讲了情感分类的概念，作用，主要目的，以及当前主要方法。

参考文献

最后编辑于：2017.12.09 22:37:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271