占坑:Kaggle NLP入门赛概况

你的首个Kaggle NLP入门赛:Natural Language Processing with Disaster Tweets

竞赛简述

推特如今已成为紧急情况下的重要沟通渠道。

智能手机的“器官化”让人们能够实时发布他们看到的紧急情况。因此,越来越多的机构通过程序监控推特的相关内容(如救灾组织和新闻机构)。

但是,机器难以辨认一个人是否真的在宣布一场灾难。例如:

作者明确地使用了“燃烧”(ABLAZE)这个词,但它的意思却是隐喻性的。这对人类来说是显而易见的,尤其是在有图片辅助理解的情况,但机器就不那么清楚了。

在这个比赛中,你要建立一个机器学习模型来预测哪些推文是关于真正的灾难的,哪些不是。你的数据集包含一万条已进行人工分类的推文。

免责声明:本次比赛的数据集包含可能被认为是亵渎、粗俗或冒犯的文本。

这个数据集是由figure-eight公司创建的,最初在他们的“Data For Everyone”网站上分享。

推特来源