《Bidirectional Recurrent Convolutional Neural Network for Relation Classification》阅读笔记

论文标题:Bidirectional Recurrent Convolutional Neural Network for Relation Classification

来源:ACL 2016

问题:基于深度学习的关系抽取


主要方法


    本文提出了一个基于最短依赖路径(SDP)的深度学习关系分类模型,文中称为双向递归卷积神经网络模型(BRCNN),结构如下图。

图 1

文中提出双向模型,和以往的论文一样,考虑到了实体之间关系的方向性,如下图2 SDP反向,将原来(K + 1)个realtion 类扩充到(2K + 1)个类(other 不考虑方向性),BRCNN分为两个RCNN,一个前向(SDP为输入),一个后向(反向的SDP为输入)。

图 2

在每个RCNN中,将SDP中的words和 words之间的dependency relation 分别用embeddings表示,并且将SDP中的words之间的dependency relation 和words分开到两个独立channel的LSTM,使它们在递归传播的时候不互相干扰。在convolution层把相邻词对应的LSTM输出和它们的dependency relation的LSTM输出连结起来作为convolution层的输入,在convolution层后接max pooling。在pooling层后接softmax分类,共有三个softmax分类器,两个RCNN的pooling分别接一个softmax做考虑方向的(2K + 1)个关系分类,两个RCNN的pooling连到一个softmax做不考虑方向的(K + 1)个关系分类。损失函数为三个softmax的cross-entropy 加上正则项:

word embeddings 使用 word2vec 在 Gigaword 训练得到的200维的词向量初始化, dependency relation embeddings 使用50维的随机数初始化,同一 dependency relation不同方向采用不同的 embeddings.


实验数据


基于经典数据集SemEval-2010 Task8,取得了86.3的F1-score,下面是数据对比。

图 3

相关工作


基于深度学习的关系抽取这篇文章对关系抽取的监督学习和深度学习相关工作做了比较详细的介绍。

传统的有监督的关系抽取系统需要大量的人工标注的训练数据,从练数据中自动学习关系对应的抽取模式。有监督关系抽取方法主要包括:基于核函数的方法[Zhao and Grishman 2005; Bunescu and Mooney 2006],基于逻辑回归的方法[Kambhatla 2004],基于句法解析增强的方法[Milleret al. 2000]和基于条件随机场的方法[Culotta et al. 2006]。针对人工标注训练数据需要花费大量的时间和精力这个缺陷,Mintz等人[Mintz et al. 2009]提出了远程监督(Distant Supervision)的思想。作者们将纽约时报新闻文本与大规模知识图谱Freebase(包含7300多个关系和超过9亿的实体)进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效解决了关系抽取的标注数据规模问题。

传统的有监督的关系抽取严重依赖词性标注、句法解析等自然语言处理标注提供分类特征,但是这些特征往往存在大量的错误,在之后的训练过程中,这些错误会影响关系抽取的结果。

很多研究人员开始考虑将深度学习运用到关系抽取中,[Socher et al. 2012]提出使用递归神经网络来解决关系抽取问题,主要使用句子的句法信息,实体的位置和语义信息,结合词向量,通过递归神经网络来得到句子的向量表示,再用于关系分类。[Zeng et al. 2014]提出采用卷积神经网络进行关系抽取。他们采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示。[Santos et al. 2015]还提出了一种新的卷积神经网络进行关系抽取,其中采用了一种新的ranking损失函数。[Miwa et al. 2016]提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM(Long-Short Term Memory,长短时记忆模型)和树形LSTM同时对实体和句子进行建模。[Lin et al. 2016]提出了一种基于句子级别注意力机制的神经网络模型来解决这个问题,该方法能够根据特定关系为实体对的每个句子分配权重。


简评


正如论文中提到,论文主要有两个新颖点:第一,使用两个channel LSTM分别encode SDP的words 信息和dependency relation信息,使用convolution layer将两部分连接起来,使用LSTM学习SDP的全局信息,使用convolution layer提取word之间的局部信息。结合了[Yan Xu et al. 2015]的多通道LSTM的特点和[Zeng et al. 2014]的卷积关系抽取的特点。 第二,提出了双向结构同时分别学习SDP的前向和后向的句子表示信息,增强了对实体关系方向分类的能力。

将深度学习运用到关系抽取中取得了很好的效果,但是最近几年的论文模型的创新点不多,大多是之前的论文模型的结合和改进。大多基于句法树的树形LSTM或CNN模型或两者结合,将多种信息用于不同的通道。个人感觉这样的方式来提升效果将越来越难,沿着这个方向的提升空间越来越小。目前关系抽取的深度学习模型都依然依赖于句法树分析,句法树存在较多错误。有研究表明,如果对于一个句子考虑其最可能的多个句法分析树,分析结果准确率可以得到较大提升。将句子的多个可能句法树信息结合起来用于关系抽取将是一个重要的研究方向。


参考文献


Zhao, Shubin, and RalphGrishman. Extracting relations with integrated information using kernel methods. In Proceedings of ACL, 2005.

Mooney, Raymond J., and Razvan C. Bunescu. Subsequence kernels for relation extraction. In Proceedings ofNIPS, 2005.

Kambhatla, Nanda. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations.  In Proceedings of ACL, 2004.

Culotta, Aron, Andrew McCallum,and Jonathan Betz.  Integrating probabilistic extraction models and datamining to discover relations and patterns in text.  In Proceedings of HLT-NAACL,2006.

Mintz, Mike, Steven Bills, RionSnow, and Dan Jurafsky.  Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, 2009.

Socher, Richard, et al. Semantic compositionality through recursive matrix-vectorspaces. Proceedings of EMNLP-CoNLL, 2012.

Santos Cicero Nogueira dos, Xiang Bing, Zhou Bowen. Classifying Relations by Ranking with Convolutional Neural Networks. In Proceedings of ACL,2015.

Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao.Relation classification via con- volutional deep neural network. COLING,2014.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容