最近学习了一下机器阅读理解(MRC)的课程,这里做个小总结。结合例子,让我们来了解MRC。
一、NLP四大基本任务
首先我们了解一下NLP的基本任务。
- 序列标注:分词、词性标注
- 分类任务:文本分类、情感分析
- 句子关系:问答系统、对话系统
- 生成任务:机器翻译、文章摘要
- NLG(自然语言生成)&NLU(自然语言理解)
二、阅读理解
2.1 阅读理解概念
通过阅读从文本中抽取信息并理解意义的过程。通过交互从书面文字中提取与构造文章语义的过程。
小明在楼上,他口袋里有一个苹果。小明和小红说了一句话,然后出去玩了。
问题:苹果现在在哪?
其实我们一眼看出是可以很容易找到答案,但是交给机器就不一定了。
应用场景:搜索引擎、机器问答&智能客服
2.2 机器阅读理解(MRC)四大任务
- 完形填空
- 多项选择
- 答案抽取
- 自由回答
2.3 机器阅读理解方法
- 特征+传统机器学习
- BERT以前:各种神奇的QA架构
- BERT以后:预训练+微调+trick
三、机器阅读理解架构
这里的架构主要是整个模型的架构
Embedding
- one-hot
- Word2vec
- Elmo(解决一次多义的问题)
- BERT
Feature Extraction(特征提取)
- CNN
- RNN
- Transformer
Context-Query Interaction
(问题与文章交互)
- 注意力机制
Answer Prediction
- Word predictor
- Option predictor
- Span extractor
- Answer generator
四、评测指标
- Accuracy
- F1
- Rouge-L
- BLEU