PRML Chapter 01 Introduction

最近油管上的Siraj Raval小哥发起了一个“100 Days of ML Code Challenge”的活动，在Gayhub上也得到了众多程序员的响应，因此，本系列将以PRML为Base，在100天内，由浅入深，从定义、公式推导到代码实现等几个方面以综述的形式对ML进行学习。
第一章PRML通过一些例子对机器学习与模式识别的一些重要基础概念进行了解释，而其中主要包括概率论、决策论，以及信息论三方面的知识。

PRML Chapter 01 Introduction

A. Probabillity theory

概率论的主要意义在于对不确定性的量化定义，这也可以看作是人类对于未知的观察与定义。

a. Prior knowledge

要搞懂概率论在讲什么，首先要知道随机试验、样本点、样本空间的定义，

随机试验：称具有以下三个特点的试验为随机试验：
- 明确性：试验的所有可能结果事前已知；
- 随机性：在每次试验之前，究竟哪一种结果会出现，事先无法确定；
- 重复性：试验可以在相同条件下重复进行。
样本点：随机试验 $E$ 的每一个可能的结果称为 $E$ 的一个样本点。
样本空间：随机试验 $E$ 的所有样本点的集合称为 $E$ 的样本空间。

以掷硬币为例，在试验前，我们知道其结果有正面、反面（明确性）；每次试验前，无法确定是正面还是反面（随机性）；显然，试验可以在相同条件下重复进行（重复性）。因此，我们可以称掷硬币为一个随机试验。对于掷硬币这一随机试验，我们可以看到其具有两个样本点“正面”、“反面”，由此易知样本空间为{“正面”，“反面”}。
通过以上的知识，很自然的，我们能够得到概率的公理化定义，即给每个样本点赋予一个数值表示这个样本点在每次试验中出现的几率。更一般地，设随机试验 $E$ 的样本空间为 $\Omega$ ，对 $E$ 的每一个随机事件 $A$ 赋予一个实数，记为 $P(A)$ ，如果集合函数 $P(·)$ 满足以下三个约束条件，则称 $P(A)$ 为事件 $A$ 的概率。

$\begin{cases} P(\Omega)=1 \\ foreach \ A,\ P(A) \geq 0 \\ P(\cup_{k=1}^{\infty} A_k)=\sum_{k=1}^{\infty}P(A_k),\ s.t. \forall i、j,\ P(A_i \cap A_j)=\phi \end{cases}$

概率论中有两个重要的概念是概率分布和概率密度，前者是对整个样本空间的分布进行的函数式描述，而后者是对具体的样本点的分布情况进行的描述。为了更方便的定义这两个概念，我们首先引入随机变量的概念，

随机变量：设E为一个随机试验， $\Omega=\{\omega\}$ 为其样本空间，若对每一个 $\omega \in \Omega$ ，都有唯一的实数 $X=X(\omega)$ 与之对应，则称 $X=X(\omega)$ 是定义在 $\Omega$ 上的随机变量。

对比概率的公理化定义与随机变量的定义可以看出，其主要区别在于，概率的公理化为每一个样本点定义了一个具体的数值，而随机变量将所有的数值抽象为一个变量。由此，概率分布定义为，

概率分布函数：设 $X=X(\omega)$ 为一随机变量，对任意实数 $x$ ，称概率 $P\{X \leq x\}=P\{w:X(w) \leq x\}$ 为随机变量 $X=X(\omega)$ 的分布函数，记作 $F(x)$ ，即

$F(x) = P(X \leq x),\ -\infty < x < +\infty \tag{1.1}$

由上式易知，概率分布函数描述的是样本空间中在 $X \leq x$ 的区间。对于概率密度函数，考虑连续型随机变量，从下式可以看出概率分布函数与概率密度函数的关系，其中 $f(t)$ 为概率密度函数。

$F(x \in (a,b)) = \int_{a}^bf(x)dx\\s.t. \begin{cases} f(x) \geq 0 \vdots\\ \int_{-\infty}^{+\infty}f(x)=1 \end{cases}\tag{1.2}$

b. Rules of probabillity

PRML中也提到两个重要的规则，加和规则（sum rule）和乘积规则（product rule），这两个规则在之后的模型推导中起到了重要作用，对于两个事件 $X,Y$ 的情况，其定义如下。

sum rule： $p(X)=\sum_Yp(X,Y)\tag{1.3}$
product rule： $p(X,Y)=p(Y|X)p(X)\tag{1.4}$

其中 $p(X,Y)$ 称为联合概率，表示事件 $X$ 和 $Y$ 同时发生的概率； $p(Y|X)$ 称为条件概率，表示事件 $X$ 发生的条件下事件 $Y$ 发生的概率； $p(X)$ 称为边缘分布，表示仅考虑事件 $X$ 发生的概率。

c. Expectations and covariances

期望：函数 $f(x)$ 在概率密度函数 $p(x)$ 下均值被称作期望，可以理解为对函数 $f(x)$ 的加权平均。离散型随机变量和连续型随机变量的期望形式如下，
$\begin{gather} E[f] = \sum_xp(x)f(x)\tag{1.5}\\ E[f] = \int p(x)f(x)dx\tag{1.6} \end{gather}$

特别地，多变量情况下我们经常会考虑对于单个变量的期望值，其形式如下，显然下式表示的期望是关于变量 $y$ 的函数， $E_x[f(x,y)]=\int_x p(x,y)f(x,y)dx\tag{1.7}$
方差：用于衡量函数 $f(x)$ 与 $E[f(x)]$ 偏离程度，其定义如下，
$var[f]=E[(f(x)-E[f(x)])^2]\tag{1.8}$

但是更常用的计算形式通过以下推导得到，
$\begin{aligned} var[f] &= E[(f(x)-E[f(x)])^2]\\ &= E[f(x)^2-2f(x)E[f(x)]+E[f(x)]^2]\\ &= E[f(x)^2]-2E[f(x)]E[f(x)]+E[f(x)]^2\\ &= E[f(x)^2]-E[f(x)]^2 \end{aligned}\tag{1.9}$
协方差：对于两个随机变量，协方差度量其相互影响机制，即度量是正相关的还是反相关的。具体定义为 $cov[x,y] = E_{x,y}[\{x-E[x]\}\{y-E[y]\}]$ ，但更常用的计算公式通过如下推导得到，
$\begin{aligned} cov[x,y] &= E_{x,y}[\{x-E[x]\}\{y-E[y]\}]\\ &= E_{x,y}[xy-xE[y]-yE[x]+E[x]E[y]]\\ &= E_{x,y}[xy]-2E[x]E[y]+E[x]E[y]\\ &= E_{x,y}[xy]-E[x]E[y] \end{aligned}\tag{1.10}$

d. Bayesian probabilities

要理解贝叶斯学派的思想，我们首先通过加和规则和乘积规则得出贝叶斯定理，因为联合概率显然有 $p(X,Y)=p(Y,X)$ ，因此，
$\begin{aligned} p(X,Y) &= p(Y|X)p(X)\\ &= p(X|Y)p(Y)= p(Y,X) \end{aligned}$

通过上式可以得出贝叶斯定理为，
$p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}\tag{1.11}$
其中，
$p(X) = \sum_Yp(X|Y)p(Y)\tag{1.12}$

考虑数据集 $D$ 服从参数为 $\omega$ 的某个分布，我们现在需要推断出参数 $\omega$ 以实现对新数据的预测，通过贝叶斯定理可以得到，
$p(\omega|D) = \frac{p(D|\omega)p(\omega)}{p(D)}\tag{1.13}$

从式(1.13)可以看出，贝叶斯定理通过参数 $\omega$ 先验分布和似然函数 $p(D|\omega)$ 来得到后验分布，即
$posterior \propto likelihood \ \times \ prior\tag{1.14}$

在机器学习与模式识别领域，主要分为频率学派和贝叶斯学派，通过式(1.13)和(1.14)可以直观的反映其各自的主张，

频率学派：频率学派关注的主要是数据集 $D$ 中样本X的分布，即样本空间。其认为参数 $\omega$ 是固定的但尚未确定的，因此其主要关注似然函数 $p(D|\omega)$ ，通过最大化似然函数求得参数 $\omega$ 的点估计。其主要思想是“maximize the probability of the data given the parameters”，即通过寻找 $\omega$ 的点估计，使得数据集出现的可能性达到最大。
贝叶斯学派：贝叶斯学派则更多的关注于参数 $\omega$ 的分布，即参数空间，其核心思想是认为参数 $\omega$ 服从某一分布，其主要关注似然函数与参数 $\omega$ 的先验分布的乘积，所以有“maximize the probability of the parameters given the data”，即在给定数据集的情况，寻找参数的最优分布。

B. Descition theory

在机器学习与模式识别中，决策论关注的主题是“对预测模型输出的不同目标值，应该采取何种操作”。例如，当我们的医疗模型对癌症图像进行识别时，给出了85%的概率时，我们是判断其患癌还是不患癌，我们是相信这85%的概率还是相信那15%的概率，显然地，对于癌症诊断，没有患病预测为患病的代价明显小于患病了预测为没有患病的代价，因此给前者增加一个小于后者的惩罚参数是一个不错的选择，这种简单的操作即为决策论讨论的范围。解析来我们将逐步讨论决策论的一些方法。

a. Minimizing the misclassification rate

首当其冲的策略为最小化误分类率(minimizing the misclassification rate)，定义如下，
$\begin{aligned} p(mistake) &= p(x \in R_1, C_2) + p(x \in R_2, C_1)\\ &= \int_{R_1}p(x,C_2)dx + \int_{R_2}p(x,C_1) \end{aligned}\tag{1.15}$

很显然，该方法的核心策略便是最小化分类的错误率，亦相当于最大化分类正确率。

b. Minimizing the expected loss

在现实中的某些情况，如果我们仅仅使用最小化误分类率往往是不合理的。例如，我们上边提到的癌症预测，因为对于数据集 $D$ ，患病的样本数远远小于没有患病的样本数，假设数据集中99%的样本没有患病，那么如果模型对所有的数据都预测为没有患病，那么正确率即高达99%，这显然是不合理的，尤其是对漏诊的患者而言，代价巨大。为了解决这一问题，我们可以采取加权的方式，即给每一种分类情况分配一个损失，仍然以癌症预测为例，我们可以将患病而漏诊的损失设置为1000，而没有患病而误诊的损失设置为10，这样，我们可以得到最小化期望损失(minimizing the expected loss)的函数，形式如下，
$E[L] = \sum_k\sum_j\int_{R_j}L_{k,j}p(x,C_k)dx\tag{1.16}$

其中 $L_{k,j}$ 表示将类别为k的样本分类为类别j的损失。

c. The reject option

拒绝选项(reject option)也是一种常用到的决策方法，其主要方式是给模型设置一个阈值，当我们的模型给出了高于这一阈值的预测精度，则认为可以相信这一预测，而当预测精度低于这一阈值时则可能需要其他辅助手段来进行决策包括人类介入等操作。以癌症预测为例，我们可以认为模型给出的预测精度低于90%时，不再保留模型意见而需要医生介入进行判断。

C. Information theory

信息论的一个主要议题即是对信息的量化。现实生活中，我们经常提及的一个词是“信息量”，并且我们总是以“大”和“小”来对某一事件的信息量进行衡量。显然地，当我们认为一个事件信息量小时，其实我们往往在说的是“这个事情我已经知道了，都确定了”；而当我们认为一个事件信息量大时，其实我们往往在说“这个事情我之前不知道啊，接下来会怎么发展不确定啊”。正因为以上这些现象，要量化信息且尊重常识与直觉，我们可以认为低概率事件的信息量大于高概率事件，因此有以下关于信息的一些理论。

a. Information

由于生活中关于信息的感觉，我们可以定义对于一个概率分布 $p(x)$ 的信息为 $h(x)$ 为，
$h(x) = -log_2p(x)\tag{1.17}$

由于 $h(x)$ 定义为概率分布 $p(x)$ 的负对数形式，因此当 $p(x)$ 越小时，信息越大；当 $p(x)$ 越大时，信息越小。对于负对数的底数我们也可以采用 $e$ ，这样就变成了自然对数，在之后的讨论中都使用自然对数。同时，我们可以定义在整个概率分布 $p(x)$ 上的均值信息为熵 $H[x]$ ，
$H[x] = -\sum_xp(x)ln\ p(x)\tag{1.18}$

类似地，对于连续性随机变量有，
$H[x]=-\int p(x)ln\ p(x)dx\tag{1.19}$

b. Relative entropy & mutual information

相关熵(Relative entropy)亦称为KL散度被定义为如下形式，
$\begin{aligned} KL(p||q) &= -\int p(x)ln\ q(x)dx-\left(-\int p(x)ln\ p(x)dx)\right)\\ &= -\int p(x)ln\left\{ \frac{q(x)}{p(x)} \right\} \end{aligned}\tag{1.20}$

KL散度可以看作是两分布 $p(x)$ 和 $q(x)$ 之间的不相似程度，最大化KL散度等驾驭最大化似然函数。同时，由式(1.20)显然可知， $KL[p||q] \neq KL[q||p]$ ；KL散度还有一个重要性质，即 $KL[p||q] \geq 0$ ，且等号当且仅当 $p(x) = q(x)$ 时成立，要证明这一性质，需要引入Jensen不等式(1.21)，
$f\left( \sum_{I=1}^M \lambda_ix_i \right) \leq \sum_{I=1}^M\lambda_if(x_i)\\ s.t. \lambda_i \geq 0\ and\ \sum_i \lambda_i=1 \tag{1.21}$

由期望的定义和式(1.21)，我们可以把Jensen不等式看作，
$\begin{gather} f(E[x]) \leq E[f(x)]\tag{1.22}\\ f\left( \int xp(x)dx \right) \leq \int f(x)p(x)dx\tag{1.23} \end{gather}$

因此，对于KL散度，由式(1.21)和式(1.23)有如下推导，
$\begin{aligned} KL(p||q) &= -\int p(x)ln\left\{ \frac{q(x)}{p(x)}\right\}dx\\ &\geq ln\int p(x)\frac{q(x)}{p(x)}dx = ln\int q(x)dx = 0 \end{aligned}$

因为概率分布的性质， $\int q(x)dx=1$ ，由此， $KL[p||q] \geq 0$ 得证。对于两个变量 $x,y$ ，我们定义互信息为(mutual information)有如下形式，

$\begin{aligned} I[x,y] &\equiv KL(p(x,y)||p(x)p(y))\\ &= \iint p(x,y)ln \left( \frac{p(x)p(y)}{p(x,y)}\right)dxdy \end{aligned}\tag{1.24}$

由式(1.24)可知，互信息定义为p(x,y)与p(x)p(y)的KL散度，由条件独立性，如果 $p(x)p(y)=p(x,y)$ ，我们责成变量 $x,y$ 相互独立。又由于KL散度时衡量两个分布的不相似性程度的，因此，可以看出，互信息衡量的是两个变量相互独立的程度。一般地，我们在计算互信息时，更多的使用如下定义，

$I[x,y] = H[x]-H[x|y]=H[y]-H[y|x]\tag{1.25}$

最后编辑于：2018.08.21 19:17:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,108评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,699评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,812评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,236评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,583评论 3赞 288
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,739评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,957评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,704评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,447评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,643评论 2赞 249
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,133评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,486评论 3赞 256
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,151评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,108评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,889评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,782评论 2赞 277
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,681评论 2赞 272

PRML Chapter 01 Introduction

PRML Chapter 01 Introduction

A. Probabillity theory

a. Prior knowledge

b. Rules of probabillity

c. Expectations and covariances

d. Bayesian probabilities

B. Descition theory

a. Minimizing the misclassification rate

b. Minimizing the expected loss

c. The reject option

C. Information theory

a. Information

b. Relative entropy & mutual information

推荐阅读更多精彩内容