必读!信息抽取(Information Extraction)【命名实体识别】

来源: AINLPer
微信公众号(每日更新...
编辑: ShuYini
校稿: ShuYini
时间: 2020-08-12

本文涉及数据集资料,可以关注AINLPer 微信公众号(每日更新...)直接回复:NER001 获取。

引言

信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
 在上一篇文章一文了解信息抽取(Information Extraction)【关系抽取】中主要讲解了关系抽取的相关内容(基本概念、关系抽取算法分类、常用数据集、深度学习模型在该领域的应用),感兴趣的小伙伴可以读一下。那么本文主要为大家介绍命名实体识别的相关内容。

本文主要内容

命名实体识别是自然语言处理应用中的重要步骤,它不仅检测出实体边界,还检测出命名实体的类型,是文本意义理解的基础,本文关于命名实体识别的主要内容包括命名实体识别研究的难点、命名实体识别的研究进展、命名实体识别研究热点、命名实体识别常用的数据集及评价指标四部分内容。

命名实体识别研究的难点

1、领域命名实体识别局限性
 目前命令实体识别只是在有限的领域和有限的实体类型中取得了较好的成绩,如针对新闻语料中的人名、地名、组织机构名的识别。但这些技术无法很好地迁移到其他特定领域中,如军事、医疗、生物、小语种语言等。一方面,由于不同领域的数据往往具有领域独特特征,如医疗领域中实体包括疾病、症状、药品等,而新闻领域的模型并不适合; 另一方面,由于领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展。因此,采用半监督学习、远监督学习、无监督学习方法实现资源的自动构建和补足,以及迁移学习等技术的应用都可作为解决该问题的核心研究方向。

2、命名实体表述多样性和歧义性
 自然语言的多样性和歧义性给自然语言理解带来了很大挑战,在不同的文化、领域、背景下,命名实体的外延有差异,是命名实体识别技术需要解决的根本问题。获取大量文本数据后,由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题,出现命名实体表述多样、指代不明确等现象。因此,需要充分理解上下文语义来深度挖掘实体语义进行识别。可以通过实体链接、融合对齐等方法,挖掘更多有效信息和证据,实现实体不同表示的对齐、消除歧义,从而克服命名实体表述多样性和歧义性。

3、命名实体的复杂性和开放性
 传统的实体类型只关注一小部分类型,例如“人名”“地名”“组织机构名”,而命名实体的复杂性体现在实际数据中实体的类型复杂多样,需要识别细粒度的实体类型,将命名实体分配到更具体的实体类型中。目前业界还没有形成可遵循的严格的命名规范。命名实体的开放性是指命名实体内容和类型并非永久不变,会随着时间变化发生各种演变,甚至最终失效。命名实体的开放性和复杂性给实体分析带来了巨大的挑战,也是亟待解决的核心关键问题。

命名实体识别的研究进展

 命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。

1、基于规则和词典的方法
  基于规则和字典的方法是最初代的命名实体识别使用的方法,这些方法多采用由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。

2、传统机器学习的方法
在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括: 隐马尔可夫模型 ( Hidden Markov Model,HMM) 、最大熵( Maximum Entropy,ME)、最大熵马尔可夫模型 ( Maximum Entropy Markov Model,MEMM)、支持向量机( Support Vector Machine,SVM) 、条件随机场 ( Conditional Random Fields,CRF)等。

3、基于深度学习的方法
  随着深度学习的不断发展,命名实体识别的研究重点已转向深层神经网络(DNN) ,该技术几乎不需要特征工程和领域知识。Chiu 和 Nichols提出了一种双向 LSTM-CNNs 架构,该架构可自动检测单词和字符级别的特征。Ma 和 Hovy进一步将其扩展到BiLSTM-CNNs-CRF体系结构,其中添加了CRF模块以优化输出标签序列。Liu 等提出了一种称为LM-LSTM-CRF的任务感知型神经语言模型,将字符感知型神经语言模型合并到一个多任务框架下,以提取字符级向量化表示。
 部分学者将辅助信息和深度学习方法混合使用进行命名实体识别,在基于神经网络的结构加入注意力机制图神经网络迁移学习远监督学习等热门研究技术也是目前的主流研究方向。

命名实体识别研究热点

1、匮乏资源下的命名实体识别
 命名实体识别通常需要大规模的标注数据集,例如标记句子中的每个单词,这样才能很好地训练模型。然而这种方法很难应用到标注数据少的领域,如生物、医学等领域。这是因为资源不足的情况下,模型无法充分学习隐藏的特征表示,传统的监督学习方法的性能会大大降低。近来,越来越多的方法被提出用于解决低资源命名实体识别。
 因此,针对资源匮乏领域标注数据的缺乏问题,基于迁移学习、对抗学习、远监督学习等方法被充分利用,解决资源匮乏领域的命名实体识别难题,降低人工标注工作量,也是最近研究的重点。

2、细粒度命名实体识别
 为了智能地理解文本并提取大量信息,更精确地确定非结构化文本中提到的实体类型很有意义。通常这些实体类型在知识库的类型层次结构中可以形成类型路径,例如,牛顿可以按照如下类型的路径归类: 物 理 学家 /科 学 家 /人。知识库中的类型通常为层次结构的组织形式,即类型层次。
 实现知识库中命名实体的细粒度划分也是完善知识库的重要任务之一。细粒度命名实体识别现有方法大多是通过利用实体的固有特征( 文本描述、属性和类型) 或在文本中实体指代项来进行类型推断,最近有学者研究将知识库中的实体转换为实体图,并应用到基于图神经网络的算法模型中。

3、嵌套命名实体识别
  通常要处理的命名实体是非嵌套实体,但是在实际应用中,嵌套实体非常多。大多数命名实体识别会忽略嵌套实体,无法在深层次文本理解中捕获更细粒度的语义信息

例如:”中国驻爱尔兰使馆提醒旅爱中国公民重视防控,稳妥合理加强防范。”,句子中提到的中国驻爱尔兰使馆是一个嵌套实体,中国和爱尔兰均为地名,而中国驻爱尔兰使馆为组织机构名。普通的命名实体识别任务只会识别出其中的地名“中国”和“爱尔兰”,而忽略了整体的组织机构名。

4、命名实体链接
命名实体链接主要目标是进行实体消歧,从实体指代项对应的多个候选实体中选择意思最相近的一个实体

例如:“今天晚上我要上B站”,这里B站是一个实体指代项,该实体指代项在知识库中可能存在多种表示和含义,而此处要匹配的正确实体是:bilibil网站。

实体链接的关键在于获取语句中更多的语义,通常使用两种方法。一种是通过外部语料库获取更多的辅助信息,另一种是对本地信息的深入了解以获取更多与实体指代项相关的信息

命名实体识别常用的数据集及评价指标

1、常用的数据集

  • CoNLL 2003 数据集,包括 1 393 篇英语新闻文章和 909 篇德语新闻文章,数据集中标注了 4 种实体类型: PER,LOC,ORG,MISC。

  • CoNLL 2002 数据集是从西班牙 EFE 新闻机构收集的西班牙共享任务数据集。数据集标注了 4 种实体类型: PER,LOC,ORG,MISC。

  • ACE 2004 多语种训练语料库版权属于语言 数 据 联 盟 ( Linguistic Data Consortium,LDC ) ,ACE 2004多语言培训语料库包含用于 2004 年自动内容提取( ACE) 技术评估的全套英语、阿拉伯语和中文培训数据。语言集由为实体和关系标注的各种类型的数据组成。

  • ACE 2005 多语种训练语料库版权属于LDC,包含完整的英语、阿拉伯语和汉语训练数据,数据来源包括: 微博、广播新闻、新闻组、广播对话等,可以用来做实体、关系、事件抽取等任务。

  • OntoNotes 5.0 数据集版权属于 LDC,由1 745 K英语、900 K 中文和 300 K 阿拉伯语文本数据组成,OntoNotes 5.0 的数据来源也多种多样,来自电话对话、新闻通讯社、广播新闻、广播对话和博客等。实体被标注为 PERSON,ORGANIZATION,LO-CATION 等 18 个类型。

  • MUC 7 数据集是发布的可以用于命名实体识别任务,版权属于 LDC,下载需要支付一定费用。数据取自北美新闻文本语料库的新闻标题,其中包含 190 K 训练集、64 K 测试集。

  • Twitter 数据集是由 Zhang 等提供,数据收集于 Twitter,训练集包含了 4 000 推特文章,3 257 条推特用户测试。该数据集不仅包含文本信息还包含了图片信息。因为该数据集找不到官方链接,所以只能网盘分享给大家,具体该数据集获取方式:关注AINLPer 回复:IE001

2、常见标注方法

  • IOB 标注法,是 CoNLL 2003 采用的标注法,I 表示内部,O 表示外部,B 表示开始。如若语料中某个词标注 B /I-XXX,B /I 表示这个词属于命名实体的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。当词标注 O 则表示属于命名实体的外部,即它不是一个命名实体。

  • BIOES 标注法,是在 IOB 方法上的扩展,具有更完备的标注规则。其中 B 表示这个词处于一个命名实体的开始,I 表示内部,O 表示外部,E 表示这个词处于一个实体的结束,S 表示这个词是单独形成一个命名实体。BIOES 是目前最通用的命名实体标注方法。

  • Markup 标注法,是 OntoNotes 数据集使用的标注方法,方式较简单。例如: ENAMEX TYPE = ”ORG ” > LondonENAMEX > is an international metropolis,它直接用标签把命名实体标注出来,然后通过 TYPE 字段设置相应的类型。

3、评价指标
 命名实体识别任务常采用的评价指标有精确率 ( Precision) 、召回率 ( Recall) 、F1 值 ( F1 -Measure) 等。可以参考文章: 「深度学习」最基本的四大评价指标!!

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。