NLP | 文本特征向量化方法

01 NB的第一步

在之前的文章中，我们学习了一种分类方法：朴素贝叶斯，朴素贝叶斯特别适合文本分类，比如：

根据邮件内容，判断哪些是垃圾邮件

根据新闻内容，判断新闻情感是正面、负面还是中立
……

如果想要使用朴素贝叶斯模型去给文本数据分类，就必须对文本数据进行处理。

怎么处理呢？一般是这样的：

对文本分词(作为特征)，比如把这句话“我是天才”分词为“我”“是”“天才”（这里面的学问就更多了，本文不赘述）

统计各词在句子中是否出现(词集模型）

统计各词在句子中出现次数(词袋模型）

统计各词在这个文档的TFIDF值（词袋模型+IDF值）

本文主要讲解并实践三种文本特征向量化方法：

词集模型：one-hot编码向量化文本
词袋模型+IDF：TFIDF向量化文本
哈希向量化文本

在以下三种向量化方法中，待处理的文本都长这样：

02 one-hot编码向量化文本

两种方式实现，本文主要讲解自定义函数实现：

自定义函数 doc2onehot_matrix()
sklearn DictVectorizer

# 自定义方法：文本转onehot编码
"""
说明：
文档格式txt，每行表示一个训练样本(一句话，一段文字都可以)
文档如果是不分行的一段话，可以用nltk.tokenize.sent_tokenize(text)将文档分句，然后把每句话当作一个样本进行编码
"""
import numpy as np
import pandas as pd
import jieba

def doc2onthot_matrix():
    # 读取待编码的文件
    file_path=input("请输入待编码文件路径及文件名：")
    with open(file_path,encoding="utf-8") as f:
        docs=f.readlines()
    
    # 将文件每行分词，分词后的词语放入words中
    words=[]
    for i in range(len(docs)):
        docs[i]=jieba.lcut(docs[i].strip("\n"))
        words+=docs[i]
    
    # 找出分词后不重复的词语，作为词袋，是后续onehot编码的维度
    vocab=sorted(set(words),key=words.index)
    
    # 建立一个M行V列的全0矩阵，M问文档样本数，这里是行数，V为不重复词语数，即编码维度
    V=len(vocab)
    M=len(docs)
    onehot=np.zeros((M,V))
    
    for i,doc in enumerate(docs):
        for word in doc:
            if word in vocab:
                pos=vocab.index(word)
                onehot[i][pos]=1
    onehot=pd.DataFrame(onehot,columns=vocab)
    return onehot

我们将待处理文本输入到代码中，得到如下输出，可以看到，每句话都统计出各词语是否出现

03 TF-IDF文本向量化

同样的，也可以通过两种方式实现，本文主要讲解自定义函数实现：

自定义函数 doc2tfidf_matrix()
sklearn TfidfVectorizer，CountVectorizer，TfidfTransformer

import numpy as np
import pandas as pd
import math
import jieba

def doc2tfidf_matrix():
    # 读取待编码的文件
    file_path=input("请输入待编码文件路径及文件名：")
    with open(file_path,encoding="utf-8") as f:
        docs=f.readlines()
    
    # 将文件每行分词，分词后的词语放入words中
    words=[]
    for i in range(len(docs)):
        docs[i]=jieba.lcut(docs[i].strip("\n"))
        words+=docs[i]
    
    # 找出分词后不重复的词语，作为词袋
    vocab=sorted(set(words),key=words.index)
    
    # 建立一个M行V列的全0矩阵，M问文档样本数，这里是行数，V为不重复词语数，即编码维度
    V=len(vocab)
    M=len(docs)
    onehot=np.zeros((M,V)) # 二维矩阵要使用双括号
    tf=np.zeros((M,V))
    
    for i,doc in enumerate(docs):
        for word in doc:
            if word in vocab:
                pos=vocab.index(word)
                onehot[i][pos]=1
                tf[i][pos]+=1 # tf,统计某词语在一条样本中出现的次数

    row_sum=tf.sum(axis=1) # 行相加，得到每个样本出现的词语数
    # 计算TF(t,d)
    tf=tf/row_sum[:,np.newaxis] #分母表示各样本出现的词语数，tf为单词在样本中出现的次数，[:,np.newaxis]作用类似于行列转置
    # 计算DF(t,D)，IDF
    df=onehot.sum(axis=0) # 列相加，表示有多少样本包含词袋某词
    idf=list(map(lambda x:math.log10((M+1)/(x+1)),df))
    
    # 计算TFIDF
    tfidf=tf*np.array(idf)
    tfidf=pd.DataFrame(tfidf,columns=vocab)
    return tfidf

我们将待处理文本输入到代码中，得到如下输出，可以看到，每句话都统计出各词语的TFIDF值

04 哈希向量化文本

调用sklearn HashingVectorizer实现。

什么时候使用哈希向量化呢？

TfidfVectorizer在执行时，需要先将词袋矩阵放入内存，再计算各位置单词的TFIDF值，如果词袋维度大，将占用过多内存，效率低，此时可以使用哈希向量化。

哈希向量化可以缓解TfidfVectorizer在处理高维文本时内存消耗过大的问题。

哈希技巧是无固定状态的（stateless），它把任意的数据块映射到固定数目(n_features)的位置，并且保证相同的输入一定产生相同的输出，不同的输入尽可能产生不同的输出。它可以用并行，线上，流式传输创建特征向量，因为它初始化是不需要文集输入的。（额，其实这段话我目前还不太明白，待学习~~）

05 总结

朴素贝叶斯模型特别适合分类文本数据，但分类之前需要对文本提取特征并向量化。

本文总结了三种文本特征向量化的方法：onehot，TFIDF，Hashing，这是使用/自定义朴素贝叶斯模型的前提。之后我们会进行下一步：朴素贝叶斯模型的调用和自定义（造个轮子？）

最后编辑于：2018.09.23 00:53:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269