「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-27

引言

    今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-LSTM模型,并针对该方法的弊端提出将字符符号信息合并到字符向量表示中,提高了模型的性能(计算量、效果)。

First Blood

TILE: Simplify the Usage of Lexicon in Chinese NER
Contributor : 复旦大学(计科院)
Paper: https://arxiv.org/pdf/1908.05969v1.pdf
Code: https://github.com/v-mipeng/LexiconAugmentedNER

文章摘要

    对于中文命名实体是识别,考虑到实际生产应用,本文主要针对Lattice-LSTM模型的弊端(复杂的模型结构和计算效率低),提出了一种简洁而有效的方法,即将字符符号信息合并到字符向量表示中。这样,我们的方法可以避免引入复杂的序列建模体系结构来对词汇信息进行建模。相反,它只需要微调神经序列模型的字符表示层。通过在四组中文基准NER数据集上的验证,可以发现该方法可以实现更快的推理速度,相对于LSTM及其衍生模型具有更好的性能。

模型的核心思想

    本文的核心目标是找到一个更简单的方法来实现LSTM网格思想。即将句子中所有匹配的单词合并到基于字符的NER模型中。首要原则是实现快速的推理速度。为此,本文提出将从词典中获得的匹配词编码成字符的表示形式。与LSTM相比,该方法更加简洁,易于实现。

本文模型介绍

Lattice-LSTM模型分析

    优点:第一、它为每个字符保存所有可能匹配的单词。这可以通过启发式地选择与NER系统匹配的字符结果来避免错误传播。第二、它可以在系统中引入预先训练好的word嵌入,这对最终的性能有很大的帮助。
    缺点:Lattice-LSTM模型的缺点是它将句子的输入形式从一个链式序列转换为一个图。这将大大增加句子建模的计算成本。

Proposed Model

    基于Lattice-LSTM的思考,本文的设计应尽量保持句子的链式输入形式,同时保持Lattice-LSTM模型的两个优点。

    首先本文提出了ExSoftWord,但是通过对ExSoftword的分析,发现ExSoftword方法不能完全继承Lattice-LSTM的两个优点。首先,它不能引入预先训练过的单词嵌入。其次,虽然它试图保持现有的匹配结果为多个分割标签,但它仍然会丢失大量的信息。 为此本文提出不仅保留字符可能的分割标签,而且保留它们对应的匹配词。 具体地说,在这种改进的方法中,句子s的每个字符c对应于由四个分段标签“bmes”标记的四个单词集。词集b(c)由在句子s上以c开头的所有词库匹配词组成。同样,m(c)由c出现在句子s中间的所有词库匹配词组成,e(c)由以c结尾的所有词库匹配词组成,s(c)是由c组成的单个字符词。如果一个词集是空的,我们将在其中添加一个特殊单词“None”来表示这种情况。

    然后是将每个字符的四个词集压缩成一个固定维向量。为了尽可能多地保留信息,我们选择将四个单词集的表示连接起来表示为一个整体,并将其添加到字符表示中。
    此外,我们还尝试对每个单词的权重进行平滑处理,以增加非频繁单词的权重。

    最后,基于增强字符表示,我们使用任何合适的神经序列标记模型进行序列标记,如基于LSTM的序列建模层和CRF标记推理层。

实验结果

    不同v^s下本文方法的F1得分

    是否使用bichar,所提方法对OntoNotes上的训练迭代次数对比。
    与Lattice LSTM和LR-CNN相比,本方法在不同的序列建模层下的计算速度(平均每秒句子数,越大越好)。
     在OntoNotes上的性能
    在MRSA上的性能

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容