学习笔记CB002:词干提取、词性标注、中文切词、文档分类

英文词干提取器，import nltk，porter = nltk.PorterStemmer()，porter.stem('lying') 。

词性标注器，pos_tag处理词序列，根据句子动态判断，import nltk，text = nltk.word_tokenize("And now for something completely different”)，nltk.pos_tag(text) 。CC 连接词，RB 副词，IN 介词，NN 名次，JJ 形容词。

标注自定义词性标注语料库，tagged_token = nltk.tag.str2tuple('fly/NN') 。字符串转成二元组。布朗语料库标注 nltk.corpus.brown.tagged_words() 。

nltk中文语料库，nltk.download()。下载 Corpora sinica_treebank，台湾中国研究院。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

for word in nltk.corpus.sinica_treebank.tagged_words():
    print(word[0], word[1])

jieba切词，https://github.com/fxsjy/jieba，自定义语料中文切词，自动词性标注。

词性自动标注。默认标注器 DefaultTagger，标注为频率最高词性。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

default_tagger = nltk.DefaultTagger('NN')
raw = '我 好 想 你'
tokens = nltk.word_tokenize(raw)
tags = default_tagger.tag(tokens)
print(tags)

正则表达式标注器，RegexpTagge，满足特定正则表达式词性。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

pattern = [(r'.*们$','PRO')]
tagger = nltk.RegexpTagger(pattern)
print(tagger.tag(nltk.word_tokenize('我们 一起  去 你们 和 他们 去过 的 地方')))

查询标注器，多个最频繁词和词性，查找语料库，匹配标注，剩余词用默认标注器(回退)。

一元标注，已标注语料库训练，模型标注新语料。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

tagged_sents = [[(u'我', u'PRO'), (u'小兔', u'NN')]]
unigram_tagger = nltk.UnigramTagger(tagged_sents)
sents = [[u'我', u'你', u'小兔']]
# brown_tagged_sents = nltk.corpus.brown.tagged_sents(categories='news')
# unigram_tagger = nltk.UnigramTagger(brown_tagged_sents)
# sents = nltk.corpus.brown.sents(categories='news')
tags = unigram_tagger.tag(sents[0])
print(tags)

二元标注、多元标注，一元标注 UnigramTagger 只考虑当前词，不考虑上下文。二元标注器 BigramTagger 考虑前面词。三元标注 TrigramTagger。

组合标注器，提高精度和覆盖率，多种标注器组合。

标注器存储，训练好持久化，存储硬盘。加载。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

train_sents = [[(u'我', u'PRO'), (u'小兔', u'NN')]]
t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)
sents = [[u'我', u'你', u'小兔']]
tags = t2.tag(sents[0])
print(tags)

from pickle import dump
print(t2)
output = open('t2.pkl', 'wb')
dump(t2, output, -1)
output.close()

from pickle import load
input = open('t2.pkl', 'rb')
tagger = load(input)
input.close()
print(tagger)

机器学习，训练模型，已知数据统计学习；使用模型，统计学习模型计算未知数据。有监督，训练样本数据有确定判断，断定新数据。无监督，训练样本数据没有判断，自发生成结论。最难是选算法。

贝叶斯，概率论，随机事件条件概率。公式：P(B|A)=P(A|B)P(B)/P(A)。已知P(A|B)、P(A)、P(B)，计算P(B|A)。贝叶斯分类器：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

my_train_set = [
        ({'feature1':u'a'},'1'),
        ({'feature1':u'a'},'2'),
        ({'feature1':u'a'},'3'),
        ({'feature1':u'a'},'3'),
        ({'feature1':u'b'},'2'),
        ({'feature1':u'b'},'2'),
        ({'feature1':u'b'},'2'),
        ({'feature1':u'b'},'2'),
        ({'feature1':u'b'},'2'),
        ({'feature1':u'b'},'2'),
        ]
classifier = nltk.NaiveBayesClassifier.train(my_train_set)
print(classifier.classify({'feature1':u'a'}))
print(classifier.classify({'feature1':u'b'}))

分类，最重要知道哪些特征最能反映分类特点，特征选取。文档分类，最能代表分类词。特征提取，找到最优信息量特征：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk
from nltk.corpus import movie_reviews
import random

documents =[(list(movie_reviews.words(fileid)),category)for category in movie_reviews.categories()for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = [word for (word, freq) in all_words.most_common(2000)]
def document_features(document):
        document_words = set(document)
        features = {}
        for word in word_features:
                features['contains(%s)' % word] = (word in document_words)
        return features

featuresets = [(document_features(d), c) for (d,c) in documents]
# classifier = nltk.NaiveBayesClassifier.train(featuresets)
# classifier.classify(document_features(d))

train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))
classifier.show_most_informative_features(5)

词性标注，上下文语境文本分类。句子分割，标点符号分类，选取单独句子标识符合并链表、数据特征。识别对话行为，问候、问题、回答、断言、说明。识别文字蕴含，句子能否得出另一句子结论，真假标签。

参考资料：
http://www.shareditor.com/blogshow?blogId=67
http://www.shareditor.com/blogshow?blogId=69
https://www.jianshu.com/p/6e5ace051c1e
《Python 自然语言处理》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,425评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,058评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,186评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,848评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,249评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,554评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,830评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,536评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,239评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,505评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,004评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,346评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,999评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,060评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,821评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,574评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,480评论 2赞 267

学习笔记CB002:词干提取、词性标注、中文切词、文档分类

推荐阅读更多精彩内容