重要链接
Introduction
作者认为好的词表征应该同时兼顾两个问题:一是单词在语义和语法上的复杂特点;二是随着语言环境的改变,这些用法也应该随之变化。
为此,作者提出了 deep contextualized word representation (深度情景化词表征)。
这种算法的特点是每个词的表征都是整个输入语句的函数。
具体做法:
现在大语料上以 language model为目标训练处 Bi-LSTM模型,利用它产生词语的表征(pre-trained biLM模型);(ELMo因此得名 embedding from language model)
为了应用在下游NLP任务重,一般先利用下游任务的语料库(此时,忽略掉label)进行 language model的微调(fine tuning),这种微调相当于一种 domain transfer;
然后才是利用label的信息进行supervised learning。
ELMo表征是“深”的,就是说它们是BiLM的所有层的内部表征的函数。这样做的好处是能够产生丰富的词语表征。高层的LSTM的状态可以捕捉词语以一种和语境相关的那方面的特征(比如可以应用在语义消歧),而地层的LSTM可以找到语法方面的特征(比如可以做词性标注)。如果把它们结合在一起,会在下游的NLP任务中显出优势。
bidirectional language models
ELMo : embedding from language model,确切说是来自于bidirectional language models