中文文本语料库整理(不定时更新2015-10-24).md

声明:资源全部源自网络,如有侵权,请联系我将及时删除。

最近在网上找语料,多比较杂乱不全,所以这里做一次整理,方便大家。
如果大家手里有可以分享的语料资源,欢迎分享出来,我会一并整理到此文。


2015-10-24 : 初版


中文语料,我把它们分为这样几种;

1. 原始语料,比如某某新闻,微博合集,一些未经处理的原始语料;

这个是xml格式,包含很多meta

2. 分词库(语料),最常见的比如搜狗分词库,结巴词库;

这种词库比较好找,也比较杂乱,这里我整理了几个不错的,在这里:all@百度盘
此处尽量按照『文本组成@词数量_出处』格式进行文件命名,如下:

分词词库列表

  • 这里比较推荐分词_频数_词性@35万_结巴.txt分词_拼音@4万_搜狗.txt两个词库。如果你有一些比如拼音需求,也可以选择对应文本;
  • 需要注意的一点是,有一个分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz文件,这个是搜狗细胞词库所有的词了,里面包含非常多的各行业词汇,如下图,在针对特定行业ML时候,这些分词应该是比较有帮助的,特别是带有【官方推荐】名字的,都非常不错。
    分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz

3. 词性标注库(语料),比如98年人民日报词性标注库@百度盘

此处尽量按照『词性标注@行数量_出处』格式进行文件命名。
相较于上面两种语料,此语料人工标注成本太高,所以也比较少。目前我也只有98年人民日报词性标注库。不过网上说人民日报2014年词性标注库也已经有了,但是需要授权,我也没拿到。


98年人民日报词性标注库

需要说明的几点:

  • 除了维基中文dump(比较大)是在他们服务器上,其他我都整理在了我的百度盘上了,大家自行使用。
  • 对于分类1中的语料库,大家可以尝试从数据堂找到更多资源。

我的中文文本语料库百度盘:http://pan.baidu.com/s/1gdJJ1FP


update:

另:博主建了一个NLP的QQ群,希望有兴趣的朋友加入,群号: 451175756

推荐阅读更多精彩内容