情感分类方法简介

情感分析(Sentiment analysis),又称倾向性分析,意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subjectivity analysis),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。
是NLP领域一个比较重要的课题。

情感分类有什么用

物品好坏分析: 从评论中分析物品的好坏。例如电影好坏,是否值得看。
物品属性分析:例如某些价位区间几款车的舒适度,油耗, 操作性能等。
产品反馈分析: 产品哪些功能点最受用户喜欢,哪些功能最受用户吐槽。
网民舆情分析: 例如分析美团外面清真事情等。
金融走势分析:例如,2012年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 上线。它会即时关注Twitter 中的公众情绪指导投资。
总的来说:情感分类分析再小到平台物品,产品本身,大到金融事情都有其用武之地。随着这波数据浪潮和人工智能浪潮的兴起。这一领域将会起到越来越重要的作用。

情感分类的任务有哪些

情感分析主要目的就是识别用户对事物或人的看法、态度(attitudes:enduring, affectively colored beliefs, dispositions towards objects or persons),参与主体主要包括

  • Holder (source) of attitude:观点持有者
  • Target (aspect) of attitude:评价对象
  • Type of attitude:评价观点
  • From a set of types:Like, love, hate, value, desire, etc.
  • Or (more commonly) simple weighted polarity: positive, negative, neutral
  • Text containing the attitude: 评价的文本, 一般是句子或者整篇文档。

通常,我们面临的情感分析任务包括如下几类:

  • Simplest task: 文本态度是积极的还是消极的或者是中立的。
  • More complex: 将文本态度分为1到5个档次。
  • Advanced: 探测评价对象, 观点源以及文本态度。
    下面内容将主要覆盖前面两类任务。至于Advanced 内容还需要再做调研。

情感分类的主要方法

基于情感词典的方法

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行拆句、分析及匹配词典(一般有词性分析,句法依存分析),计算情感值,最后通过情感值来作为文本的情感倾向判断的依据。
做法:基于词典的情感分析大致步骤如下:
对大于句子粒度的文本进行拆解句子操作,以句子为最小分析单元;
分析句子中出现的词语并按照情感词典匹配;
处理否定逻辑及转折逻辑;
计算整句情感词得分(根据词语不同,极性不同,程度不同等因素进行加权求和);
根据情感得分输出句子情感倾向性。
如果是对篇章或者段落级别的情感分析任务,按照具体的情况,可以以对每个句子进行单一情感分析并融合的形式进行,也可以先抽取情感主题句后进行句子情感分析,得到最终情感分析结果。
其中最重要的是情感词典的获取。

  1. 是获取成熟的开放词典:例如:GI(The General Inquirer), LIWC (Linguistic Inquiry and Word Count), MPQA Subjectivity Cues Lexicon, Bing Liu Opinion Lexicon, SentiWordNet。
  2. 由于特点领域的需要有时需要根据给定的语料库做情感词典的学习。
    常见的情感词典构建方法是基于半指导的bootstrapping学习方法,主要包括两步
    2.1 Use a small amount of information(Seed)
    2.1.1 A few labeled examples
    2.1.2 A few hand-built patterns
    2.2 寻找其它有相似极性的词:
    2.2.1 使用连接词转折词等
    2.2.2 在同一文档中同一窗口区间的词
    2.2.3 在wordnet 中找同义词和反义词
    2.2.4 使用种子词典和半监督学习的方法寻找相似极性的词,具体可以参考文献3 和 4

基于ML方法

基于词典的方法实现方便,高效。但主要缺点是靠谱的词典不好找, 找到的基本都是特定领域的资料。另外由于自然语言千变万化的特点, 规则难于满足大部分场景。效果相较于基于学习的方法效果有一定差距。
基于ML方法就是将情感分类当做普通的分类问题:例如(negative, positive, neuraltive)
这里面最重要的问题是特征的提取问题: 常用的文本特征提取,一般是基于tf-idf, 向量表示, 之后分类模型常用的有 maxent, svm, naive bayes等。
由于TF-IDF,是高纬度高稀疏的,缺乏语义,特征表达能力很弱。从深度学习流行以来在文本表示领域出现了一些效果不错的方法。
其中比较重要的是采用词向量(例如word2vector, glove)进行表示。例如fasttext 就是采用此类方法进行分类, 在时间复杂度远低于深度学习的方法的同时取得了相当的效果(至少在论文发表时是state of the art)。
在运算力和数据足够时:可以考虑采用CNN 和 RNN去自动学习语言中词的表示。
数据不足的问题: 机器学习问题最重要的问题基本是数据问题了。往往在现实中大量标注的数据并不可获得, 为了解决这个问题,一些有远见卓识的大牛正在借助迁移学习, 生成对抗网络在解决这些问题,并且取得了一定的效果。具体可以参考文献5和6.
具体:利用容易获取的大量未标注数据,可以参考文献6,学习一个传统的语言模型,或者学习一个端到端的 编码器,从而得到一个encoding model来表征输入的文本。再利用少量的标注数据(或购买,或少量人工标注),在第一步获得的encoding model的基础上进行supervised learning,在这个过程中对encoding model进行fine tune,获得最终的分类模型。

总结

本文主要讲了情感分类的概念,作用,主要目的,以及当前主要方法。

参考文献

  1. https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf
  2. http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%EF%BC%88sentiment-analysis%EF%BC%89
  3. http://acl.ldc.upenn.edu/P/P97/P97-1023.pdf
  4. https://www.isi.edu/natural-language/people/hovy/papers/04Coling-opinion-valences.pdf
  5. https://arxiv.org/pdf/1505.07818.pdf
  6. https://arxiv.org/abs/1511.01432
  7. https://www.zhihu.com/question/31471793
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容