朴素贝叶斯算法（Naive Bayes）

在介绍朴素贝叶斯算法之前，我们来看看关于统计学的一些基础知识：

贝叶斯定理需要先验知识作为支撑，而先验知识需要大量的计算和历史数据，因此在很长一段时间内，无法得到广泛应用。只有计算机诞生以后，它才获得真正的重视。人们发现，许多统计量是无法进行客观判断的，而互联网时代出现的大型数据集，再加上告诉运算能力，为验证这些统计量提供了方便，也为应用贝叶斯定理创造了条件。

条件概率：

$P( A \mid B ) = \frac {P(A \bigcap B) } {P(B)}$

$P(A \bigcap B) = P(A \mid B) * P(B)$

同理可得：

$P(A \bigcap B) = P(B \mid A) * P(A)$

即：

$P(A \mid B) * P(B) = P(B \mid A) * P(A)$

$P(B \mid A) = \frac {P(A \mid B) * P(B)} {P(A)}$

全概率公式：

若事件 $B_{1}$ 、 $B_{2}$ 、…… $B_{n}$ 构成一个完备事件组即 $\sum_{i=1}^n P(B_{i} ) = 1$ ，且都有正概率，那么对于任意一个事件A，有如下公式

$P(A) = P(AB_1) + P(AB_2) + \cdots + P(ABn) = \\ P(A \mid B_1)P(B_1) + P(A \mid B_2)P(B_2) + \cdots + P(A \mid B_n)P(B_n)$

贝叶斯公式：

贝叶斯公式与全概率公式相反，是在已知 $P(B)$ 的基础上，求 $P(B \mid A)$ 。

通过对条件概率的简单变形，就可以得到贝叶斯公式：

$P(B \mid A) = P(B) * \frac {P(A \mid B)} {P(A)} = P(B) * \frac {P(A \mid B)} {\sum_{i=1}^nP(B_{i})*P(A\mid B_{i} ) }$

贝叶斯公式由三部分形成，先验概率、后验概率、似然估计。其中后验概率 = 先验概率 * 似然估计。在上述公式中， $P(B)$ 是先验概率， $\frac {P(A \mid B)} {P(A)}$ 是似然估计， $P(B \mid A)$ 是后验概率。

所谓先验概率就是在事件A发生之前，我们对B事件概率的一个判断。后验概率则指的是在事件A发生之后，我们对B事件概率的重新评估。似然估计是一个调整因子或者修正参数，在我们计算事件概率的时候，需要不断通过修正参数使得我们所求的概率无限接近于真实概率。

如果似然估计 $\frac {P(B \mid A)} {P(B)} > 1$ ，那么表示A事件的发生提高了B事件发生的概率。相反的，如果似然估计 $\frac {P(B \mid A)} {P(B)} < 1$ ，那么表示A事件的发生降低了B事件发生的概率。

2.朴素贝叶斯模型

从统计学知识回到我们的数据分析。假如我们的分类模型样本是：

$(x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$

即我们有m个样本，每个样本有n个特征，特征输出有K个标签，定义为 ${C_1,C_2,...,C_K}$ 。从样本我们可以学习得到朴素贝叶斯的先验分布 $P(Y=C_k)(k=1,2,...K)$ ，条件概率分布 $P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ ，然后我们就可以用贝叶斯公式得到 $P(X,Y)$ :

$P(X,Y=C_k) = P(Y=C_k)P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$

分析上面的式子， $P(Y=C_k)$ = $\frac {C_{k} } {\sum_{i=1}^KC_{i} }$ 即标签 $C_k$ 在训练集中出现的频数。但是 $P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$ 是一个复杂的n个维度的条件分布，很难计算。所以为了简化计算，朴素贝叶斯模型中假设n个特征之间相互独立，于是有：

$P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) = P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)...P(X_n=x_n|Y=C_k)$

最后回到我们要解决的问题，我们的问题是给定测试集的一个新样本特征

$(x_1^{(test)}, x_2^{(test)}, ...x_n^{(test)})$ ，我们如何判断它属于哪个类型？

贝叶斯模型的目标是后验概率最大化来判断分类。我们只要计算出所有的K个条件概率

$P(Y=C_k|X=X^{(test)})$ 然后找出最大的条件概率对应的类别。

3.朴素贝叶斯的目标函数

我们预测的类别 $C_{result}$ 是使 $P(Y=C_k|X=X^{(test)})$ 最大的类别：

$\begin{align} C_{result} & = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)}) \\& = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) \Bigg{/}P(X=X^{(test)}) \end{align}$

分析上式可知分母 $P(X=X^{(test)})$ 是固定值，因此预测公式可以简化为：

$C_{result} = \underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k)$

接着我们利用朴素贝叶斯的独立性假设，就可以得到通常意义上的朴素贝叶斯推断公式:

$C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)$

4.朴素贝叶斯的参数估计

在朴素贝叶斯算法中，学习意味着估计 $P(Y=C_k)$ 和 $P(X_j=X_j^{(test)}|Y=C_k)$ 。可以用极大似然估计法估计相应的概率。先验概率 $P(Y=C_k)$ 的极大似然估计是：

$P(Y=C_k) = \frac {\sum_{i=1}^NI(y_{i} = C_{k} ) } {N } ,k = 1,2,...K$

其中 $I(y_{i} = C_{k} )= \begin{cases} 1& { y_i=C_k}\\ 0 & {y_i \neq C_k } \end{cases}$ 即样本中标签 $C_k$ 出现的次数在总样本数 $N$ 中的占比。

第 $j$ 个特征 $X^{(j)}$ 可能的取值集合为 $({a_{j1},a_{j2},...a_{js}})$ ，似然函数 $P(X^{(j)} =a_{jl} |Y=C_k) = \frac {\sum_{i=1}^NI(X^{(j)} =a_{jl},y_{i} = C_{k} ) } {I(y_{i} = C_{k} ) }$

$j = 1,2,...N,l = 1,2,...S ,k = 1,2,...K$

即 $C_k$ 标签中，第 $j$ 个特征 $X^{(j)}$ 中各种取值的次数在 $C_k$ 标签出现总次数中的占比。

5.拉普拉斯平滑

在用极大似然估计时，可能特征 $X^{(j)}$ 的某些取值在 $C_k$ 标签样本中没有出现，这时似然函数为 $0$ ，同时导致目标函数为 $0$ ，这会使分类产生偏差。为解决这一问题采用贝叶斯估计：

$P_\lambda (X^{(j)} =a_{jl} |Y=C_k) = \frac {\sum_{1}^NI(X^{(j)} =a_{jl},y_i = C_{k} ) + \lambda } {\sum_{1}^NI(y_i = C_{k} ) + S_{j} \lambda }$

其中 $S_{j}$ 是 $C_k$ 标签中第 $j$ 个特征不重复数值的个数。当 $\lambda = 0$ 是就是极大似然估计，当 $\lambda = 1$ 时，称为拉普拉斯平滑。同样，先验概率的贝叶斯估计是: $P_\lambda (Y=C_k) = \frac {\sum_{i=1}^NI(y_i = C_{k} ) +\lambda } {N +K\lambda } ,k = 1,2,...K$

以上为建立Naive Bayes模型的相关理论知识，具体的实例可以看看，同时感谢作者：

https://bigquant.com/community/t/topic/126054

小伙伴们如果觉得文章还行的请点个赞呦！！同时觉得文章哪里有问题的可以评论一下谢谢你！

最后编辑于：2019.03.21 11:43:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266

朴素贝叶斯算法（Naive Bayes）

2.朴素贝叶斯模型

3.朴素贝叶斯的目标函数

4.朴素贝叶斯的参数估计

5.拉普拉斯平滑

推荐阅读更多精彩内容