论文阅读_自然语言模型GPT-3

论文：https://arxiv.org/abs/2005.14165
代码：https://github.com/openai/gpt-3

OpenAI于2020年6月发表了GPT-3论文《Language Models are Few-Shot Learners》，模型包括1750亿参数，比之前最大模型又大了10倍，使用45T数据训练，31位作者，论文长达75页，尝试了不同量级的GPT-3模型，在20多个NLP数据集上做了评价。其核心是不使用Fine-tune的GPT-3模型。

目前前沿的自然语言模型一般是先用大规模无监督数据预测训练（pretrain）模型之后，然后使用带标注的领域数据微调模型(fine-tune)，费时费力，且有些领域难以实现标注；模型也可能被领域数据的分布带偏，从而损失了泛化能力；另外，微调后的模型只能解决特定问题，不像人类，可以在众多类似的问题之间切换，并使用综合技能解决复杂的问题。

Pretrain&fine-tune方法一般用于有大量标注的数据（带标注数据一般含几千到几十万的数据量），对于仅有少量标注（few-shot如10-100标注）或者单标注（one-shot，一个标注数据）、无标注（zero-shot）的数据效果都不好。

从下图中可以看到，当训练实例和参数规模增加后，模型对Few-shot问题学习效果有明显地提升，也就是说加入海量无标注数据学习后，模型举一反三的能力明显提高了。

GPT-3训练出的模型不需要fine-tune，但它主要针对的也是few-shot, one-shot, zero-shot问题，对于包含大量标注的数据，一般使用fine-tune效果更好。

可以看到，最大的模型，1750亿参数，96层，128头的attention，并在处理更大规模数据时提升了batch_size，减少了学习率。除了海量的数据和参数，在多个数据集上测试以外，与GPT-2相比，GPT-3并没有引入大量的先进技术。GPT-2论文发布于2019年《Language models are unsupervised multitask learners》，其中包含更多技术细节。

论文很长，第一部分是介绍；第二部分是算法实现和评价方法；第三部分展示了训练效果；第四部分讨论了数据污染（训练和测试集重合问题）；第五部分讨论了GPT-3的局限性；第六部分是模型的影响，包括伦理相关讨论；第七部分是近期自然语言模型回顾；第八部分为总结。尽管全文70多页，但核心内容主要集中在正文的前8-10页。