必读!信息抽取(Information Extraction)【命名实体识别】

来源: AINLPer
微信公众号(每日更新...
编辑: ShuYini
校稿: ShuYini
时间: 2020-08-12

本文涉及数据集资料,可以关注AINLPer 微信公众号(每日更新...)直接回复:NER001 获取。

引言

信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
 在上一篇文章一文了解信息抽取(Information Extraction)【关系抽取】中主要讲解了关系抽取的相关内容(基本概念、关系抽取算法分类、常用数据集、深度学习模型在该领域的应用),感兴趣的小伙伴可以读一下。那么本文主要为大家介绍命名实体识别的相关内容。

本文主要内容

命名实体识别是自然语言处理应用中的重要步骤,它不仅检测出实体边界,还检测出命名实体的类型,是文本意义理解的基础,本文关于命名实体识别的主要内容包括命名实体识别研究的难点、命名实体识别的研究进展、命名实体识别研究热点、命名实体识别常用的数据集及评价指标四部分内容。

命名实体识别研究的难点

1、领域命名实体识别局限性
 目前命令实体识别只是在有限的领域和有限的实体类型中取得了较好的成绩,如针对新闻语料中的人名、地名、组织机构名的识别。但这些技术无法很好地迁移到其他特定领域中,如军事、医疗、生物、小语种语言等。一方面,由于不同领域的数据往往具有领域独特特征,如医疗领域中实体包括疾病、症状、药品等,而新闻领域的模型并不适合; 另一方面,由于领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展。因此,采用半监督学习、远监督学习、无监督学习方法实现资源的自动构建和补足,以及迁移学习等技术的应用都可作为解决该问题的核心研究方向。

2、命名实体表述多样性和歧义性
 自然语言的多样性和歧义性给自然语言理解带来了很大挑战,在不同的文化、领域、背景下,命名实体的外延有差异,是命名实体识别技术需要解决的根本问题。获取大量文本数据后,由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题,出现命名实体表述多样、指代不明确等现象。因此,需要充分理解上下文语义来深度挖掘实体语义进行识别。可以通过实体链接、融合对齐等方法,挖掘更多有效信息和证据,实现实体不同表示的对齐、消除歧义,从而克服命名实体表述多样性和歧义性。

3、命名实体的复杂性和开放性
 传统的实体类型只关注一小部分类型,例如“人名”“地名”“组织机构名”,而命名实体的复杂性体现在实际数据中实体的类型复杂多样,需要识别细粒度的实体类型,将命名实体分配到更具体的实体类型中。目前业界还没有形成可遵循的严格的命名规范。命名实体的开放性是指命名实体内容和类型并非永久不变,会随着时间变化发生各种演变,甚至最终失效。命名实体的开放性和复杂性给实体分析带来了巨大的挑战,也是亟待解决的核心关键问题。

命名实体识别的研究进展

 命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。

1、基于规则和词典的方法
  基于规则和字典的方法是最初代的命名实体识别使用的方法,这些方法多采用由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典。规则包括关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等。词典是由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典。制定好规则和词典后,通常使用匹配的方式对文本进行处理以实现命名实体识别。

2、传统机器学习的方法
在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括: 隐马尔可夫模型 ( Hidden Markov Model,HMM) 、最大熵( Maximum Entropy,ME)、最大熵马尔可夫模型 ( Maximum Entropy Markov Model,MEMM)、支持向量机( Support Vector Machine,SVM) 、条件随机场 ( Conditional Random Fields,CRF)等。

3、基于深度学习的方法
  随着深度学习的不断发展,命名实体识别的研究重点已转向深层神经网络(DNN) ,该技术几乎不需要特征工程和领域知识。Chiu 和 Nichols提出了一种双向 LSTM-CNNs 架构,该架构可自动检测单词和字符级别的特征。Ma 和 Hovy进一步将其扩展到BiLSTM-CNNs-CRF体系结构,其中添加了CRF模块以优化输出标签序列。Liu 等提出了一种称为LM-LSTM-CRF的任务感知型神经语言模型,将字符感知型神经语言模型合并到一个多任务框架下,以提取字符级向量化表示。
 部分学者将辅助信息和深度学习方法混合使用进行命名实体识别,在基于神经网络的结构加入注意力机制图神经网络迁移学习远监督学习等热门研究技术也是目前的主流研究方向。

命名实体识别研究热点

1、匮乏资源下的命名实体识别
 命名实体识别通常需要大规模的标注数据集,例如标记句子中的每个单词,这样才能很好地训练模型。然而这种方法很难应用到标注数据少的领域,如生物、医学等领域。这是因为资源不足的情况下,模型无法充分学习隐藏的特征表示,传统的监督学习方法的性能会大大降低。近来,越来越多的方法被提出用于解决低资源命名实体识别。
 因此,针对资源匮乏领域标注数据的缺乏问题,基于迁移学习、对抗学习、远监督学习等方法被充分利用,解决资源匮乏领域的命名实体识别难题,降低人工标注工作量,也是最近研究的重点。

2、细粒度命名实体识别
 为了智能地理解文本并提取大量信息,更精确地确定非结构化文本中提到的实体类型很有意义。通常这些实体类型在知识库的类型层次结构中可以形成类型路径,例如,牛顿可以按照如下类型的路径归类: 物 理 学家 /科 学 家 /人。知识库中的类型通常为层次结构的组织形式,即类型层次。
 实现知识库中命名实体的细粒度划分也是完善知识库的重要任务之一。细粒度命名实体识别现有方法大多是通过利用实体的固有特征( 文本描述、属性和类型) 或在文本中实体指代项来进行类型推断,最近有学者研究将知识库中的实体转换为实体图,并应用到基于图神经网络的算法模型中。

3、嵌套命名实体识别
  通常要处理的命名实体是非嵌套实体,但是在实际应用中,嵌套实体非常多。大多数命名实体识别会忽略嵌套实体,无法在深层次文本理解中捕获更细粒度的语义信息

例如:”中国驻爱尔兰使馆提醒旅爱中国公民重视防控,稳妥合理加强防范。”,句子中提到的中国驻爱尔兰使馆是一个嵌套实体,中国和爱尔兰均为地名,而中国驻爱尔兰使馆为组织机构名。普通的命名实体识别任务只会识别出其中的地名“中国”和“爱尔兰”,而忽略了整体的组织机构名。

4、命名实体链接
命名实体链接主要目标是进行实体消歧,从实体指代项对应的多个候选实体中选择意思最相近的一个实体

例如:“今天晚上我要上B站”,这里B站是一个实体指代项,该实体指代项在知识库中可能存在多种表示和含义,而此处要匹配的正确实体是:bilibil网站。

实体链接的关键在于获取语句中更多的语义,通常使用两种方法。一种是通过外部语料库获取更多的辅助信息,另一种是对本地信息的深入了解以获取更多与实体指代项相关的信息

命名实体识别常用的数据集及评价指标

1、常用的数据集

  • CoNLL 2003 数据集,包括 1 393 篇英语新闻文章和 909 篇德语新闻文章,数据集中标注了 4 种实体类型: PER,LOC,ORG,MISC。

  • CoNLL 2002 数据集是从西班牙 EFE 新闻机构收集的西班牙共享任务数据集。数据集标注了 4 种实体类型: PER,LOC,ORG,MISC。

  • ACE 2004 多语种训练语料库版权属于语言 数 据 联 盟 ( Linguistic Data Consortium,LDC ) ,ACE 2004多语言培训语料库包含用于 2004 年自动内容提取( ACE) 技术评估的全套英语、阿拉伯语和中文培训数据。语言集由为实体和关系标注的各种类型的数据组成。

  • ACE 2005 多语种训练语料库版权属于LDC,包含完整的英语、阿拉伯语和汉语训练数据,数据来源包括: 微博、广播新闻、新闻组、广播对话等,可以用来做实体、关系、事件抽取等任务。

  • OntoNotes 5.0 数据集版权属于 LDC,由1 745 K英语、900 K 中文和 300 K 阿拉伯语文本数据组成,OntoNotes 5.0 的数据来源也多种多样,来自电话对话、新闻通讯社、广播新闻、广播对话和博客等。实体被标注为 PERSON,ORGANIZATION,LO-CATION 等 18 个类型。

  • MUC 7 数据集是发布的可以用于命名实体识别任务,版权属于 LDC,下载需要支付一定费用。数据取自北美新闻文本语料库的新闻标题,其中包含 190 K 训练集、64 K 测试集。

  • Twitter 数据集是由 Zhang 等提供,数据收集于 Twitter,训练集包含了 4 000 推特文章,3 257 条推特用户测试。该数据集不仅包含文本信息还包含了图片信息。因为该数据集找不到官方链接,所以只能网盘分享给大家,具体该数据集获取方式:关注AINLPer 回复:IE001

2、常见标注方法

  • IOB 标注法,是 CoNLL 2003 采用的标注法,I 表示内部,O 表示外部,B 表示开始。如若语料中某个词标注 B /I-XXX,B /I 表示这个词属于命名实体的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。当词标注 O 则表示属于命名实体的外部,即它不是一个命名实体。

  • BIOES 标注法,是在 IOB 方法上的扩展,具有更完备的标注规则。其中 B 表示这个词处于一个命名实体的开始,I 表示内部,O 表示外部,E 表示这个词处于一个实体的结束,S 表示这个词是单独形成一个命名实体。BIOES 是目前最通用的命名实体标注方法。

  • Markup 标注法,是 OntoNotes 数据集使用的标注方法,方式较简单。例如: ENAMEX TYPE = ”ORG ” > LondonENAMEX > is an international metropolis,它直接用标签把命名实体标注出来,然后通过 TYPE 字段设置相应的类型。

3、评价指标
 命名实体识别任务常采用的评价指标有精确率 ( Precision) 、召回率 ( Recall) 、F1 值 ( F1 -Measure) 等。可以参考文章: 「深度学习」最基本的四大评价指标!!

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269