Deep Learning - 第三章-概率论重要知识点复习-Deep Learning 读书笔记

概率论

概率论为定量的描述不确定性提供了一个数学框架,伴随而来的是一整套标准的的描述不确定性的定理和表示方式。通过概率论来定量描述不确定性,使得对于频率和概率的描述不再因人而异,而是可以像程序语言一样在不同的程序员和计算机之间可以准确的被传递和解释,这使得我们在了解一个事件的时候,不会被“非常”,“相当”,“极其”... 等定性的描述语言所困惑。

在人工智能相关应用中要面临很多的不确定性问题,在这个领域概率论主要应用在以下两个方面:

  • 需要算法可以基于目前呈现给它的信息根据概率理论进行推理

  • 从业人员可以使用概率工具来分析人工智能系统的表现

频率概率 frequentist probability:通过一个比率来描述一个或多个事件在多次重复实验中发生的概率,例如在 10000 次键盘敲击中,有多少次输入由于没有激发电容而导致输入失败。

贝叶斯概率 Bayesian probability:通过一个概率来给出一个事件属于某一性质的置信程度 degree of belief,例如某个来访的病人以多大的概率患有某种疾病。

随机变量

随机变量是一个可以随机取得不同值的变量,在本书中随机变量用不加任何修饰的小写字母 x 来表示,其可能的取值用 x1,x2... xn 来表示。当随机变量的结果是一个向量时,用黑体小写字母 x 表示,其可能的一个取值则用斜黑体字母表示 x

随机变量本身只是对变量的所有可能的取值状态的一个描述,即 x = xi,i =
1,... ,n。而对于随机变量取得各个值的概率,则需要使用概率分布 Probability distributions 来描述。例如对于诊断一个疾病来说,诊断结果这个随机变量最简单的取值就是有(1)或没有(0)某种疾病,而疾病发生的概率则需要采用概率分布来描述,例如如果流行病学数据统计发现患病率为 10%,则 P(1) = 10%, P(0) = 90%。

根据取值的分布情况,可以将随机变量分为离散型随机变量和连续性随机变量,离散型随机变量的取值是一个个独立的分类或状态,而连续性随机变量的取值则是任意实数。基于取值情况的差异,离散型随机变量和连续性随机变量的概率分布情况也用不同的方式来描述。

概率分布

离散型随机变量的概率分布用概率分布函数 Probability mass function,PMF 来表示,离散型随机变量的概率分布函数用大写斜体字母 P 表示。概率分布函数建立了一个从随机变量取值到取得这个值的概率之间的一个函数关系:

  • 这个函数的定义域 domain 是随机变量的所有可能取值

  • 对于任意一个取值来说,0 ≤ P(xi) ≤ 1

  • 对于所有取值来说,ΣP(xi) = 1

连续性随机变量的概率分布用概率密度函数 Probability density function,PDF 来表示,连续性随机变量的概率密度函数用小写斜体字母 p 来表示。概率密度函数在某个取值范围内的积分代表随机变量的取值在这个范围内的概率。概率密度函数的要求如下:

  • 这个函数的定义域 domain 是随机变量的所有可能取值

  • 对于任意一个取值来说,0 ≤ P(xi) ,注意这里不需要 ≤ 1,并且在实际应用中,连续型随机变量取得任意一个具体数值的概率都为 0

  • p(x)dx = 1

边缘概率 Marginal probability

有时我们知道了一组随机变量的联合概率分布情况,而如果想知道只沿着其中一个变量方向的概率变化情况,则需要使用边缘概率分布。“边缘概率”这个命名实际上来源于在纸面上手动计算概率分布的过程:如果在计算联合概率分布时将所有 x 的取值作为行,将所有 y 的取值作为列,则 x 取某一特定值的概率将可以在行的右侧边缘加总得到。

  • 对于离散型随机变量,如果已知 P(x, y),则 P(x = xi) = ΣyP(x=xi,y=yi),即加总 x = xi 时 y 沿 y 轴变化时的全部取值的概率

  • 对于连续性随机变量,上述计算需要改成 ∫ p(x, y)dy

条件概率 Conditional probability

在某随机事件已发生的情况下,求另一个具有一定相关性的随机事件发生的概率称为条件概率 ,例如对于随机变量 x, y,当 x 取 xi 时,求 y 取 yi 的概率,这一计算的数学表示及计算公式为:

P(y = yi | x = xi) = P(x = xi, y = yi) / P(x = xi)

条件概率的链式法则

多维随机变量的联合概率分布可以分解为基于一个随机变量的条件概率的形式,例如对于三个随机变量:由于 P(a, b, c) = P(a| b, c)P(b, c),而 P(b, c) = P(b| c)P(c),因此 P(a, b, c) = P(a| b, c)P(b| c)P(c)。

独立分布 Independence 和条件独立 Conditional independence

  • 如果对于两个随机变量 x,y, 如果对于其各自的任意取值,都有 P(x = xi, y = yi) = P(x = xi)P(y = yi),则称这两个随机变量 x,y 彼此独立,记做 x ⊥ y

  • 如果对于两个随机变量 x,y 和第三个随机变量 z,如果对于x,y,z 各自的任意取值,都有 P(x = xi, y = yi | z = zi ) = P(x = xi | z = zi)P(y = yi | z = zi),则称这两个随机变量 x,y 在给定随机变量 z 下条件独立,记做 x ⊥ y | z

期望 Expectation,方差 Variance 和协方差 Covariance

在一般性的期望、方差和协方差定义时,都讨论的是随机变量本身的期望、方差和协方差,这里作者直接讨论的是随机变量的函数的期望、方差和协方差。为了便于理解,一并给出随机变量本身的期望、方差和协方差公式。

期望

随机变量自身的期望计算公式为:

  • Ex = x̄ = Σxi / n,其中 i = 1, ... , n

如果随机变量 x 的概率分布为 P(x),则对于 x 的一个函数 ƒ(x),其在这个概率分布下的期望值记为 Ex~P[ƒ(x)],在不至混淆的情况下可以简记为其计算方法为 Ex[ƒ(x)]:

  • 离散型随机变量:Ex~P[ƒ(x)] = ΣP(x)ƒ(x),即加总 x 所有可能取值的概率与相应取值下的 ƒ(x) 的乘积

  • 连续型随机变量:Ex~P[ƒ(x)] = ∫P(x)ƒ(x)dx

从计算可以看出,由于随机变量的概率分布取值为一个标量,因此期望的计算是线性的,所以有:

  • Ex[αƒ(x) + βg(x)] = αEx[ƒ(x)] + βEx[g(x)]

方差

方差则衡量的是随机变量围绕均值变化的离散程度,方差越小则分布越集中,其本质是一个期望值。随机变量自身的方差计算公式为:

  • Var(x) = E[(xi - x̄)2] = Σ(xi - x̄)2 / n ,其中 i = 1, ... , n

注意这个 n 是针对样本的总体 Population 而言的,在实际计算中,我们计算的都是来自总体的部分样本的方差,假设样本的数量为 m,如果需要借此来估计总体的方差,则分母需要用 m - 1 做校正。其原因在于我们有理由相信样本本身的分布相对总体来说会更加集中,因此可以将这个结果做一定程度的放大来逼近总体的方差值。方差的平方根称为标准差 Standard deviation。

对于随机变量的某个函数 ƒ(x) 来说,其方差则可以表示为 Var(ƒ(x)) = Ex[(ƒ(x) - Ex[ƒ(x)])2]。

协方差

上述期望和方差的定义都是针对单一随机变量的,而协方差衡量的是两个随机变量之间的线性相关性。

两个随机变量样本集 x,y 的协方差计算公式为:

  • Cov(x, y) = Σ(xi - x̄)(yi - ȳ) / n - 1,其中 i = 1, ... , n,n - 1 为考虑样本集对于总体的一个校正

相应的随机变量的函数 ƒ(x),g(y) 的协方差计算公式为:

  • Cov(ƒ(x), g(y)) = E[(ƒ(x) - E[ƒ(x)])(g(y) - E[g(y)])

从这个计算过程可知:

  • 协方差的绝对值越大代表两个变量围绕各自均值同步偏离的程度越大,也即相关性越强

  • 如果结果是正的,则代表两个随机变量的多个取值围绕各自的均值总体上变化方向是一致的,即同时增加或减小,加总项中相同方向变化的项多于相反方向变化的项

  • 如果结果是负值,则代表随机变量的多个取值围绕各自均值的变化方向总体上是相反的,加总项中常出现的是一个变量的取值在均值的一侧,而另一个变量的取值在均值的另一侧。这里还可以参考 GRAYLAMB的回答

相关系数

尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算值与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数,其计算公式为:

  • ρ(x, y) = Cov(x, y) / (σx σy)

其中 σ 为方差,相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:

  • 当 ρ = 1 时,说明在所有取值上两个随机变量围绕均值的变化方向均相同,当 ρ = -1 时反之

  • 当 ρ = 0 或者非常接近 0 时,说明两个随机变量不具有线性相关性,但不一定相互独立,也可能具有其他的相关性,除此之外,还要注意相关关系并不意味着因果关系

  • 当 0 < ρ < 1 时,说明两个随机变量的多个取值围绕均值变化的方向有时是一致的,有时是不一致的

协方差矩阵

当将多个随机变量构成一个向量 x 时,可以通过计算这个向量中各个随机变量之间的协方差,并构造一个协方差矩阵:Cov(x) i,j = Cov(xi, xj),这个矩阵的对角线上的元素为向量中各个随机变量的方差,即 Cov(xi, xi) = Var(xi)。

几种常见的分布

正态分布 Normal distribution

中心极限定理 Central limit theorem:从总体中多次随机抽取 n 个随机变量并计算其均值,这些均值在 n 较大时呈正态分布。中心极限定理的另一个解读方式是从总体中多次抽取 n 个随机变量并求和,这个加总的值符合正态分布。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容