自然语言处理N天-AllenNLP学习(构建自己的模型)

新建 Microsoft PowerPoint 演示文稿 (2).jpg

本文基于AllenNLP英文tutorial翻译,其中不少错误,仅作为个人学习记录
有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。

  • 去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(Tobias Lee:文本预处理方法小记),其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。
  • 用到RNN时,还要经过pad,pack,pad的过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。
  • 数据集的读取,tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。

AllenNLP是在pytorch基础上的封装,它的目标是处理NLP任务,可以减少很多额外的学习。

  • 分词,帮你用spacy,NLTK,或者简单的按空格分词处理。
  • 数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。 、
  • 在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。
  • log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。

2. A Walk Through AllenNLP

第三部分 创建自己的模型

使用自带的模型很好,但是自定义更牛逼,这节就是如何自定义模型。
一般来说,为了实现一个新模型,需要实现一个DatasetReader子类来读入数据集以及与要实现的模型相对应的Model子类。(如果您已经使用了数据集的DatasetReader,当然可以重用那个。)在本教程中,我们还将实现一个自定义PyTorch模块,但通常不需要这样做。

我们的Simple Tagger模型使用LSTM来捕获输入句子中单词之间的依赖关系(就是第一次实现的那个),但是没有很好的方法来捕获标记之间的依赖关系。
对于像命名实体识别(NER)这样的任务来说,这可能是一个问题。

我们将尝试构建一个NER模型,该模型可以胜过CoNLL 2003数据集上的简单标记器。Simple Tagger在验证数据集上获得大约88%span_based_f1。在这里应该可以做的更好。

解决此问题的一种方法是在标记模型的末尾添加条件随机场层(Conditional Random Field layer)。 (如果你不熟悉CRF,这个概述文章是有用的,就像这个PyTorch教程一样。)

这个“线性链”CRF具有转换成本的num_tagsX num_tags矩阵,其中transition [i,j]表示从第j个标签转换到第i个标签的可能性。除了我们想要预测的任何标签之外,我们还会有特殊的“开始”和“结束”标签,我们将在每个句子之前和之后粘贴,以便捕捉作为标签的固有的“过渡”。句子的开头或结尾。

此外,我们的CRF将接受一组可选的约束,这些约束禁止“无效”转换(其中“无效”取决于您尝试建模的内容。)例如,我们的NER数据在每一个实体中都有代表开头,中间,结束的标签。

由于CRF只是我们模型的一个组成部分,我们将其作为模块实现。

实现CRF模块

为了实现PyTorch的模块,可以直接从torch.nn.Module中继承并覆盖

def forward(self, *input):
    pass

计算所提供输入的对数似然(log-likelihood)。
要初始化此模块,我们只需要标记的数量和可选的一些约束(表示为允许对的列表(from_tag_index,to_tag_index)):

实现CRF的标签模块

CrfTagger与SimpleTagger模型非常相似,因此我们可以将其作为起点。我们需要进行以下更改:

  • 为模型提供一个包含适当初始化的ConditionalRandomField模块的crf属性
  • 用Viterbi-generated最可能的标签替换softmax类概率
  • 用CRF对数似然的负数替换softmax +交叉熵损失函数
    然后我们可以将新模型注册为“crf_tagger”。

构建一个DatasetReader

CONLL data的格式

   U.N.         NNP  I-NP  I-ORG
   official     NN   I-NP  O
   Ekeus        NNP  I-NP  I-PER
   heads        VBZ  I-VP  O
   for          IN   I-PP  O
   Baghdad      NNP  I-NP  I-LOC
   .            .    O     O

每一行包括:一个token,一个词性标签,一个语法块标签,一个命名实体标签。空行表明是句子的结尾。

-DOCSTART- -X- O O

这个段表明文本的结尾。

用户可以自己查看代码,但在较高的层次上,我们使用itertools.groupby将输入组合成“分隔符”或“句子”组。然后,对于每个句子,我们将每行分成四列,为令牌创建一个TextField,并为标签创建SequenceLabelField(对我们来说,这将是NER标签)。

创建一个配置文件

这个就是对之前配置文件的修改,可以参考SimpleTagger的JSON文件,只需要对以下几点进行修改。

  • 将model.type名称改为crf_tagger
  • 修改dataset_reader.type为conll2003
  • 增加dataset_reader.tag_label块,名称为ner,为了指明NER标签是我们预测的。

整合在一起

allennlp train tutorials/getting_started/walk_through_allennlp/crf_tagger.json -s /tmp/crf_model
最后这部分,没有训练成功,还得看一下。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,873评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,483评论 1 306
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,525评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,595评论 0 218
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,018评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,958评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,118评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,873评论 0 208
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,643评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,813评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,293评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,615评论 3 262
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,306评论 3 242
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,170评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,968评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,107评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,894评论 2 278

推荐阅读更多精彩内容