[Skill]程序员须掌握的概率统计基础知识

前言

计算机科学作为理工科一个独特的分支，本质上仍然是建立在逻辑思维上的一门科学，良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件 $E$ 的样本空间只有有限个样本点，而几何概型适用于样本空间是某一可度量的几何区域。

古典概型

设随机实验 $E$ 的样本空间为 $\Omega = \{w_1,w_2, ..., w_n\}$ ，其中 $n$ 为样本点总数，每个样本点出现的概率是相等的，并且每次实验有且仅有一个样本点发生。如果事件 $A$ 包含 $m$ 个样本点，那么对应的概率 $P(A)$ 为：
$P(A) = \frac{m}{n}$

几何概型

当随机实验 $E$ 的样本空间是某一可度量的几何区域，并且任意一点在度量（长度、面积和体积等）相同的子区域内是等概率的，则事件 $A$ 的概率为：
$P(A) = \frac{S_A}{S}$

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

设 $A$ 和 $B$ 是两个事件，而且 $P(B)>0$ ，称：
$P(A|B) = \frac{P(AB)}{P(B)}$
为在事件 $B$ 发生的条件下，事件 $A$ 发生的条件概率。

3. 三条重要的公式：乘法公式、全概率公式和贝叶斯公式

乘法公式

根据条件概率公式，我们可以得到：
$P(AB) = P(A|B)P(B) = P(B|A)P(A)$
可推广到任意正整数 $n \geq 2$ 的情形，当 $P(A_1A_2...A_{n-1})>0$ 时，有：
$P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})$

全概率公式

也是基于条件概率公式推导的，如果 $B_1,B_2,...$ 是样本空间 $\Omega$ 的一个划分，即满足 $B_i,i = 1,2,...$ 互不相交且：
$B_1 \cup B_2 \cup ... = \Omega$
对于任意事件 $A$ ，我们可以得到全概率公式如下：
$P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)$

贝叶斯公式

整合了乘法公式和全概率公式：
$P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}, j=1,2,...$

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积，则可以认为这俩事件独立，即：
$P(AB) = P(A)P(B)$

这是从统计学上给出的独立定义，现实生活中我们也可以通过经验敲定两个事件的大致独立性，尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果 $A$ 和 $\bar{A}$ ，且：
$P(A) = p, P(\bar{A}) = 1-p=q$
那么此试验即是伯努利实验，如果该实验独立重复地进行 $n$ 次就是 $n$ 重伯努利试验。设 $A_k$ 为 $n$ 重伯努利实验中 $A$ 出现 $k$ 次的概率，则 $P(A)$ 可表示为：
$P(A_k)=C_{n}^{k}p^k(1-p)^{n-k}, k =0,1,2,...$
这就是二项分布，常记成 $B(n,k)$ 。

常见的分布函数

1.随机变量的分布函数

设 $X$ 为一个随机变量，则对任意的实数 $x$ ，该随机变量的分布函数可表示为：
$F(x) = P\{X<x\}, x\in(-\infty, +\infty)$

2.离散型随机变量的分布

离散型随机变量

离散型随机变量指的是随机变量 $X$ 的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量 $X$ 取值为 $x_k$ 的概率为 $P\{X=x_k\}=p_k$ ，离散型随机变量 $X$ 的分布律 $p_k$ 满足 $p_k \geq 0$ 且 $\sum_{k=1}^{\infty}p_k=1$

两点分布

两点分布 $X \sim B(1,p)$ 中随机变量 $X$ 的分布律为：
$P\{X=k\}=p^k(1-p)^{1-k}, k = 0,1 (0<p<1)$

伯努利分布

若随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布 $X\sim B(n,p)$ ，则其分布律满足：
$P\{X=k\} = C_n^k p^k(1-p^{n-k}), k=0,1,2,...,n$

其代表的含义表示 $n$ 重伯努利实验中 $A$ 恰好发生 $k$ 次的概率。

泊松分布

若随机变量 $X$ 服从参数为 $\lambda$ 的泊松分布 $X\sim P(\lambda)$ ，则其分布律满足：
$P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2...,$

3.连续型随机变量的分布

连续型随机变量

如果 $X$ 为连续型随机变量，则存在一个定义在 $(-\infty,+\infty)$ 上的非负函数 $f(x)$ ，使得对于任意实数 $x$ ，总有：
$F(x) = P\{X\leq x\} = \int_{-\infty}^{x} f(t) dt,-\infty < x < +\infty$

均匀分布

若随机变量 $X$ 服从区间 $[a,b]$ 上的均匀分布 $X\sim U[a,b]$ ，则其概率密度函数为：
$f(x) = \left\{\begin{matrix} \frac{1}{b-a}, &a\leq x\leq b \\ 0 ,&others \end{matrix}\right.$

指数分布

若随机变量 $X$ 服从参数为\lambda的指数分布，则其概率密度函数为：
$f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x}, & x\geq 0 \\ 0 ,& x<0 \end{matrix}\right.$

正态分布

若随机变量 $X$ 服从参数为 $\mu$ 和 $\sigma$ 的正态分布 $X\sim N(\mu,\sigma^2)$ ，则其概率密度函数为：
$f(x) = \frac{1}{\sqrt{2\pi \sigma}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}, -\infty < x <+\infty$

3.离散型二维随机向量

记离散型而维随机向量 $(X,Y)$ 取值为 $(x_i,y_j)$ 的概率为 $P\{X=x_i,Y=y_j\} = p_{ij}, i,j=1,2,...$ ，且其分布律满足 $\sum_{i}\sum_{j}p_{ij}=1$ 。

4.连续型二维随机向量

如果 $(X,Y)$ 是连续型的二维随机向量，则存在一个非负函数 $f(x,y)$ 使得对于任意的 $x,y$ 均满足：
$F(x,y) = \int_{-\infty}^y \int_{-\infty}^{x} f(u,v) dudv$

二维均匀分布

若二维连续型随机向量 $(X,Y)$ 在区域 $D$ 内服从二维均匀分布（其中区域 $D$ 的面积值为 $A$ ），则其概率密度函数为：
$f(x,y) = \left\{\begin{matrix} \frac{1}{A}, &(x,y)\in D \\ 0 ,&others \end{matrix}\right.$

二维正态分布

若二维连续型随机向量 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,|\rho|<1$ 的二维正态分布 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ ，则其概率密度函数为：
$f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp\{-\frac{1}{2(1-\rho^2)}\Big[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\Big]\}$

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为：
$E(X) = \sum_i x_ip_i$
连续型随机变量的数学期望为：
$E(X = \int_{-\infty}{+\infty} xf(x)dx$

2.方差

方差用于描述随机变量取值相对于均值的离散程度，从一定程度上描述了随机变量的“不稳定性”。

设 $X$ 为随机变量，则其方差可表述为：
$Var(X) = E\{[X-E(X)]^2\}$
$\sqrt{Var(X)}$ 也被称为 $X$ 的标准差standard deviation或均方差root mean square。

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

设 $X,Y$ 为两个随机变量，则其协方差可表述为：
$Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}$

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系，常常会受限于随机变量本身的量纲，数学中常采用标准化的方法来去除量纲的影响，这也是相关系数引入的一个原因。

随机变量 $X,Y$ 的相关系数可以表述为：
$\rho(X,Y) = \frac{Cove(X,Y)}{\sqrt{Var(X)Var(Y)}}$

极限定理

极限定理是概率论的基本定理之一，在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中，最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律，是概率论和数理统计的基本定律之一。设 $X_1,X_2,...,X_k,...$ 是随机变量序列且 $E(X_k)$ 存在，令 $Y_n=\frac{1}{n}\sum_{k=1}^{n}X_k$ ，若对于任意给定的 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-E(Y_n)|\geq \epsilon\} = 0$
则称随机变量序列 $\{X_k\}$ 服从大数定律。

伯努利大数定律

设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow \infty}P\{|\frac{n_A}{n}-p|<\epsilon\} = 1$

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

切比雪夫大数定律

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，且具有相同的期望与方差，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\}=1$

辛倾大数定律

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，服从相同的分布，且其期望 $E(X_k)=\mu$ ，则对于任意的正数 $\epsilon>0$ ，有：
$\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\} = 1$

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量 $X$ 具有期望 $E(X)=\mu$ ，方差 $Var(X)= \sigma^2$ ，则对于任意 $\epsilon>0$ ，有：
$P\{|X-\mu|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2}$

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中，一些现象收到许多相互独立的随机因素的影响，如果每个因素的影响都很小，那么总的影响可以看作是服从正态分布，中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下，断定随机变量序列 $X_1,X_2,...,X_k,...$ 的部分和 $Y_n=\sum_{k=1}^{n}X_k$ 的极限分布为正态分布的定理，均称为中心极限定理。

独立同分布的中心极限定理

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，服从同一分部，并且具有期望和方差： $E(X_k)=\mu,Var(X_k)=\sigma^2>0,k=1,2,...,$ ，则随机变量：
$Y_n = \frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}$
的分布函数收敛至标准正态分布函数。从中心极限定理可知，当 $n$ 足够大时， $Y_n$ 近似服从标准正态分布 $N(0,1)$ 。

4.拉普拉斯中心极限定理

设随机变量 $X_1,X_2,...,X_k,...$ 相互独立，并且服从参数为 $p$ 的两点分布，则对于任意实数 $x$ ，有：
$\lim_{n\rightarrow\infty}P\Big\{\frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}}\leq x\Big\} = \Phi(x)$
$\sum_{i=1}^{n}X_i$ 服从二项分布 $B(n,p)$ ，当 $n$ 足够大时， $B(n,p)$ 近似于正态分布，它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体，个体和简单随机样本

在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体，组成总体的每个基本单元叫做个体。从总体 $X$ 中随机抽取一部分个体 $X_1,X_2,...,X_n$ ，称其为取自 $X$ 的容量为 $n$ 的样本。

若总体 $X$ 具有分布函数 $F(x)$ ，则 $(X_1,X_2,...)$ 的概率联合分布为：
$F(X_1,X_2,...,X_n) = \prod_{i=1}^{n}F(x_i)$
联合概率密度函数：
$f(X_1,X_2,...,X_n)=\prod_{i=1}^{n}f(x_i)$

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据，或者说收集样本并对之进行加工，一次对所研究的问题做出一定的结论，这一过程被称为统计推断。在统计推断中，对样本进行加工整理，实际上就是根据样本计算出一些量，使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量，因此统计量是样本的某中函数。

设 $X_1,X_2,...,X_n$ 是总体 $X$ 的一个简单随机样本， $T(X_1,X_2,...,X_n)$ 为一个 $n$ 元连续函数，且 $T$ 中不含任何关于总体的未知函数，则称其为一个统计量，称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、 $k$ 阶样本原点矩、 $k$ 阶样本中心矩和顺序统计量等。

4.常用的分布

卡方分布

设 $X_1,X_2,...,X_n$ 是来自总体 $N(0,1)$ 的一个简单随机样本则称统计量：
$Y=X_1^2+X_2^2+...+X_n^2$
为服从自由度为 $n$ 的 $X^2$ 分布。

t分布

设 $X\sim N(0,1),Y\sim X^2(n)$ ，且 $X,Y$ 相互独立，则称随机变量：
$T=\frac{X}{\sqrt{Y/n}}$
为服从自由度为 $n$ 的 $t$ 分布。

F分布

设 $X\sim X^2(n), Y\sim X^2(m)$ ，且 $X$ 和 $Y$ 相互独立，则称随机变量：
$F=\frac{X/n}{Y/m}$
为服从自由度为 $(n,m)$ 的 $F$ 分布。

Reference

[1] 统计建模与R语言

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259