基于朴素贝叶斯的自然语言分类器

概述
自然语言分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。本文将介绍一个限定类别的自然语言分类器的原理和实现。采用Python作为编程语言,采用朴素贝叶斯作为分类器,使用jieba进行分词,并使用scikit-learn实现分类器。
训练数据来自于凤凰网,最终交叉验证的平均准确率是0.927。
一、训练数据获取
中文自然语言分类现成可用的有搜狗自然语言分类语料库、北京大学建立的人民日报语料库、清华大学建立的现代汉语语料库等。由于语言在使用过程中会不断演进,具有一定的时效性,我们最终决定自己开发爬虫爬取训练数据。经过综合考虑,我们最终将目标选定为凤凰网。
我们选取凤凰网移动版开展数据获取工作,地址为http://i.ifeng.com/ 如图1所示。移动版的页面布局简单清晰,但由于文章列表采用了下拉刷新的动态更新策略,直接解析页面源码效率太低,最终决定直接调用网页api获取。比如获取十条凤凰“军事”的内容,访问http://imil.ifeng.com/20_2/data.shtml 返回结果如图2左。最终获取到4784条新闻,都保存到MySQL数据库,具体数据如图2右。从中看出,军事类的文章相对偏少,体育类的文章偏多。


二、朴素贝叶斯介绍
1.贝叶斯定理
贝叶斯定理是关于随机事件 A 和 B 的条件概率:

其中,P(A)是A的先验概率,之所以称为“先验”是因为它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A 的后验概率。P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(B)是B的先验概率,也称作标淮化常量(normalizing constant)。按这些术语,贝叶斯定理可表述为:
后验概率 = (相似度 * 先验概率)/标淮化常量
2****.贝叶斯概率观
一般学院派的概率观可以称作频率主义。一个事件,如果重复独立地执行多次,把发生的次数除以执行的次数,就得到一个频率。比如说抛硬币,抛了10000次,有4976次正面向上,频率就是0.4976。然后如果执行的次数很多很多,频率会趋向于一个固定的值,就是这个事件的概率。理论基础是中心极限定理。
贝叶斯概率观与此很不同。主观贝叶斯主义认为,概率就是个人对某个事件发生可能性的一个估计。如果对一个事件你一无所知,那么你可以随便猜一个概率。但因为是估计,如果有新的信息,那就必须根据新信息对概率进行修正。这样的话,随着经历越来越多,对概率的估计也会越来越符合“实际情况”。
3.朴素贝叶斯分类器
分类器基本原理:
对一个多维的输入向量x,根据贝叶斯公式,有:

条件独立性假设:

放到自然语言分类器的应用中理解,就是在给定文本的类别的条件下,文本中出现的词的概率是相互独立的。朴素贝叶斯之所以“朴素”,就是因为条件独立性假设是一个较强的假设。于是:


从自然语言分类的角度上说,一个文本属于哪个类,要计算所有类别的先验概率和所有词在相应类别下的后验概率,再一起乘起来,哪个类别对应的值最大,就归为哪类。

三、分类器实现
1.数据预处理
文本放到分类器中分类,必须先将文本数据向量化,因为scikit-learn的分类器大多输入的数据类型都是numpy数组和类似的类型。这一步可以通过scikit-learn中特征抽取模块feature_extraction中text.CountVectorizer、text.TfidfVectorizer和text.HashingVectorizer实现。
特征哈希:特征哈希是一种处理高维数据的技术,并经常被应用在文本和分类数据集。特征哈希不需要像其他向量化工具一样,需要额外对数据集做一次遍历。特征哈希通过使用哈希方差对特征赋予向量下标,这个向量下标是通过对特征,例如,单词“美国”计算的哈希值是342,那么向量中下标是342的那个元素,值加1。特征哈希的优势在于不需要构建映射并把它保存到内存中,但是需要预先选择特征向量的大小。
另外,在向量化之前,还有一步是十分必要的。上述的方法是针对英文设计实现的,因此接收的数据类型也是默认通过空格的截断获取分词结果。因此要讲中文向量化,必须要先分词。这一步我们通过jieba实现。最后的输入文本类似图3这样的格式。CountVectorize的转换结果如图4,向量的每个值代表一个词出现的个数。HashingVectorizer的转换结果如图5。TfidfVectorizer的转换结果如图6,这里我们设置参数use_idf=False,即只使用tf,但并不等同于CountVectorize,而是相当于个数+归一化。

2.调参
确定了模型之后,可以直接使用Scikit-learn中的GridSearchCV来寻找最佳超参数。
另外一个提高准确率的技巧是删除停用词。之前分词的过程中使用的是通用的中文停用词,比如“这”,“那”等没有实际语义的词。但是这里对于文章的分类来说还有一些高频出现但是对主题没有影响的词,即便他们本身是有语义的。比如“时间”、“图”等。

3.组合
组合技术即通过聚集多个分类器的预测来提高分类准确率。常用的组合分类器方法:
1)装袋(bagging):根据均匀概率分布从数据集中重复抽样(有放回),每个自助样本集和原数据集一样大,每个自助样本集含有原数据集大约63%的数据。训练k个分类器,测试样本被指派到得票最高的类。
2)提升(boosting):通过给样本设置不同的权值,每轮迭代调整权值。不同的提升算法之间的差别,一般是(1)如何更新样本的权值;(2)如何组合每个分类器的预测。其中在Adaboost中,样本权值是增加那些被错误分类的样本的权值,分类器C_i的重要性依赖于它的错误率。
这里使用BaggingClassifier对原分类器进行装袋组合,准确率有所提升。
四、分类器评估
使用scikit-learn提供的classification_report获得分类报告如图8。使用condusion_matrix获得分类混淆矩阵如图9。交叉验证的结果如图10。可见,取得了较理想的分类表现。图11是部分分类结果。

关注微信公众号“IBM数据科学家”,喜欢我们就订阅吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容