《实体关系抽取研究综述》

1.概述

该文章作者是刘绍毓,李弼程,郭志刚,王 波,陈 刚,2016年10月发表于大学学报。
研究方向是自然语言处理中信息抽取的重要环节,实体关系抽取。这是一篇非技术性的,研究性质的文章,目录结构如下:

  • 1 实体关系抽取的发展历程与评价 体系

1.1 实体关系抽取的发展历程

  • 起初MUC、ACE评测会议的实体关系抽取涉及的 关系类型局限于命名实体(包括人名、地名、组织 机构名等)之间的少数几种类型的实体关系,如雇 佣关系、地理位置关系、人一社会组织关系等
  • SemEval一2007的评测 任务4定义了7种普通名词或名词短语之间的实 体关系,但其提供的英文语料库规模较小
  • SemEval一2010的评测任务8对其进行了丰富和完 善,将实体关系类型扩充到9种
  • 评测会议的参加者大都将实体关系抽取转化 为分类问题进行研究。
  • UC、ACE、SemEval 评测会议发布的实体关系语料都是依靠人工标注 的方式得到的,即领域专家首先制定好关系类型体 系和标注规则,然后从大规模文本逐个进行判断和 筛选。此方法耗费大量的人力,成本较高,且语料 的扩充困难。此外,该方法获得的实体关系语料领 域覆盖面窄,句子实例形式较为单一。
  • 开放式实体关系抽取出现

1.2实体关系抽取的评价体系

准确率(precision)、召回率(recall)、F值
a=某类被正确分类的关系实例个数
b=被判定为某类的关系实例总数
c=测试集的关系实例总数

precision=\frac{a}{b}

recall=\frac{a}{c}

F=\frac{2*precision*recall}{precision+recall}

1.3实体关系抽取的研究现状

根据对标注数据的依赖程度,实体关系抽取方 法可分为有监督学习方法、半监督学习方法、无监 督学习方法和开放式抽取方法

  • 有监督学习方法包括有基于规则的方法、基 于特征的方法和基于核函数的方法
  • 无监督实体关系抽取方法无需依赖实体关系 标注语料,其实现包括关系实例聚类和关系类型词 选择两个过程
    半监督实体关系抽取方法从包含关系种子的上 下文中总结出实体关系序列模式,然后利用关系序 列模式去发现更多的关系种子实例,形成新的关系 种子集合。重复上述过程,迭代得到实体关系实例 和序列模式。
  • 开放式实体关系抽取能避免针对特定关系类型人工构 建语料库,可以自动完成关系类型发现和关系抽取任务。
  • 开放式实体关系抽取方法的基本假设:若已知 两个实体存在某种语义关系,所有包含这两个实体 的句子都潜在地表达了它们之间的语义关系。
  • 开放式实体关系抽取通过借助外部领域无关的实体 知识库(如DBPedia、YAGO、OpenCyc、FreeBase或 其它领域知识库)将高质量的实体关系实例映射 到大规模文本中,根据文本对齐方法从中获得训练 数据,然后使用监督学习方法来解决关系抽取问 题。但是,此方法获得训练语料存在较多噪声,噪 声标注的滤除成为该方法的研究重点。
实体关系抽取方法比较

2.中英文摘要和关键词

  • 摘要:实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识 别,对句子语义理解及实体语义知识库构建有着重要作用。回顾了实体关系抽取的发展史,总 结了有监督实体关系抽取、无监督实体关系抽取、半监督实体关系抽取和开放式实体关系抽取 4类方法的原理和代表性研究,并对各类方法进行了详细比较。
  • 关键词:实体关系抽取;有监督方法;无监督方法;半监督方法;开放式实体关系抽取方法
  • Abstract:As a core task and important part of information extraction,entity relation extraction can realize the identification of the semantic relation between entity pairs and plays an important role in semantic understanding of sentences and the construction of entity knowledge base.This paper first reviews the development history of the entity relation extraction,then makes a summary of supervised relation extraction,unsupervised relation extraction,semi—supervised relation extraction and open relation extraction on principles and representative studies.Finally,this paper gives a detailed comparison of the four methods.
  • Key words:entity relation extraction;supervised relation extraction;unsupervised relation extrac— tion;semi-supervised relation extraction;open relation extraction method

3.结论

  • 总的来说,有监督学习的实体关系抽取方法准确率高,但是依赖于标注语料(语料库的构建困难);无监督实体关系抽取无需预先定义实体关系类型体系,具有领域无关性,在处理大规模开放领 域数据时具有其它方法无法比拟的优势,但其聚类阈值难以事先确定;半监督实体关系抽取只需要人工标注少量的关系实例,适用于缺少标注语料的实体关系抽取,但是其实现过程中引入的噪声容易造成语义漂移(语义漂移就是语义变化 就是一个词的语义在该词的使用过程中逐渐发生了变化 与最初表示的含义不同),并且方法的召回率低;开放式 实体关系抽取可以借助互联网自动完成实体关系 类型发现和实体关系抽取任务,具有广阔的发展前 景和应用空间,将对自动问答系统构建、本体知识 库构建、大数据处理、等领域产生深远的影响。
    实体关系抽取历史

    研究现状

4.主要参考文献


作者:Jasonhaven.D
链接:http://www.jianshu.com/u/ed031e432b82
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

推荐阅读更多精彩内容