[Skill]程序员须掌握的概率统计基础知识

前言

计算机科学作为理工科一个独特的分支,本质上仍然是建立在逻辑思维上的一门科学,良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件E的样本空间只有有限个样本点,而几何概型适用于样本空间是某一可度量的几何区域。

  • 古典概型

设随机实验E的样本空间为\Omega = \{w_1,w_2, ..., w_n\},其中n为样本点总数,每个样本点出现的概率是相等的,并且每次实验有且仅有一个样本点发生。如果事件A包含m个样本点,那么对应的概率P(A)为:
P(A) = \frac{m}{n}

  • 几何概型

当随机实验E的样本空间是某一可度量的几何区域,并且任意一点在度量(长度、面积和体积等)相同的子区域内是等概率的,则事件A的概率为:
P(A) = \frac{S_A}{S}

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

AB是两个事件,而且P(B)>0,称:
P(A|B) = \frac{P(AB)}{P(B)}
为在事件B发生的条件下,事件A发生的条件概率。

3. 三条重要的公式:乘法公式、全概率公式和贝叶斯公式

  • 乘法公式

根据条件概率公式,我们可以得到:
P(AB) = P(A|B)P(B) = P(B|A)P(A)
可推广到任意正整数n \geq 2的情形,当P(A_1A_2...A_{n-1})>0时,有:
P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1})

  • 全概率公式

也是基于条件概率公式推导的,如果B_1,B_2,...是样本空间\Omega的一个划分,即满足B_i,i = 1,2,...互不相交且:
B_1 \cup B_2 \cup ... = \Omega
对于任意事件A,我们可以得到全概率公式如下:
P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)

  • 贝叶斯公式

整合了乘法公式和全概率公式:
P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}, j=1,2,...

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积,则可以认为这俩事件独立,即:
P(AB) = P(A)P(B)

这是从统计学上给出的独立定义,现实生活中我们也可以通过经验敲定两个事件的大致独立性,尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果A\bar{A},且:
P(A) = p, P(\bar{A}) = 1-p=q
那么此试验即是伯努利实验,如果该实验独立重复地进行n次就是n重伯努利试验。设A_kn重伯努利实验中A出现k次的概率,则P(A)可表示为:
P(A_k)=C_{n}^{k}p^k(1-p)^{n-k}, k =0,1,2,...
这就是二项分布,常记成B(n,k)

常见的分布函数

1.随机变量的分布函数

X为一个随机变量,则对任意的实数x,该随机变量的分布函数可表示为:
F(x) = P\{X<x\}, x\in(-\infty, +\infty)

2.离散型随机变量的分布

  • 离散型随机变量

离散型随机变量指的是随机变量X的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量X取值为x_k的概率为P\{X=x_k\}=p_k,离散型随机变量X的分布律p_k满足p_k \geq 0\sum_{k=1}^{\infty}p_k=1

  • 两点分布

两点分布X \sim B(1,p)中随机变量X的分布律为:
P\{X=k\}=p^k(1-p)^{1-k}, k = 0,1 (0<p<1)

  • 伯努利分布

若随机变量X服从参数为np的二项分布X\sim B(n,p),则其分布律满足:
P\{X=k\} = C_n^k p^k(1-p^{n-k}), k=0,1,2,...,n

其代表的含义表示n重伯努利实验中A恰好发生k次的概率。

  • 泊松分布

若随机变量X服从参数为\lambda的泊松分布X\sim P(\lambda),则其分布律满足:
P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2...,

3.连续型随机变量的分布

  • 连续型随机变量

如果X为连续型随机变量,则存在一个定义在(-\infty,+\infty)上的非负函数f(x),使得对于任意实数x,总有:
F(x) = P\{X\leq x\} = \int_{-\infty}^{x} f(t) dt,-\infty < x < +\infty

  • 均匀分布

若随机变量X服从区间[a,b]上的均匀分布X\sim U[a,b],则其概率密度函数为:
f(x) = \left\{\begin{matrix} \frac{1}{b-a}, &a\leq x\leq b \\ 0 ,&others \end{matrix}\right.

  • 指数分布

若随机变量X服从参数为\lambda的指数分布,则其概率密度函数为:
f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x}, & x\geq 0 \\ 0 ,& x<0 \end{matrix}\right.

  • 正态分布

若随机变量X服从参数为\mu\sigma的正态分布X\sim N(\mu,\sigma^2),则其概率密度函数为:
f(x) = \frac{1}{\sqrt{2\pi \sigma}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}, -\infty < x <+\infty

3.离散型二维随机向量

记离散型而维随机向量(X,Y)取值为(x_i,y_j)的概率为P\{X=x_i,Y=y_j\} = p_{ij}, i,j=1,2,...,且其分布律满足\sum_{i}\sum_{j}p_{ij}=1

4.连续型二维随机向量

如果(X,Y)是连续型的二维随机向量,则存在一个非负函数f(x,y)使得对于任意的x,y均满足:
F(x,y) = \int_{-\infty}^y \int_{-\infty}^{x} f(u,v) dudv

  • 二维均匀分布

若二维连续型随机向量(X,Y)在区域D内服从二维均匀分布(其中区域D的面积值为A),则其概率密度函数为:
f(x,y) = \left\{\begin{matrix} \frac{1}{A}, &(x,y)\in D \\ 0 ,&others \end{matrix}\right.

  • 二维正态分布

若二维连续型随机向量(X,Y)服从参数为\mu_1,\mu_2,\sigma_1>0,\sigma_2>0,|\rho|<1的二维正态分布(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho),则其概率密度函数为:
f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp\{-\frac{1}{2(1-\rho^2)}\Big[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\Big]\}

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为:
E(X) = \sum_i x_ip_i
连续型随机变量的数学期望为:
E(X = \int_{-\infty}{+\infty} xf(x)dx

2.方差

方差用于描述随机变量取值相对于均值的离散程度,从一定程度上描述了随机变量的“不稳定性”。

X为随机变量,则其方差可表述为:
Var(X) = E\{[X-E(X)]^2\}
\sqrt{Var(X)}也被称为X的标准差standard deviation或均方差root mean square

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

X,Y为两个随机变量,则其协方差可表述为:
Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系,常常会受限于随机变量本身的量纲,数学中常采用标准化的方法来去除量纲的影响,这也是相关系数引入的一个原因。

随机变量X,Y的相关系数可以表述为:
\rho(X,Y) = \frac{Cove(X,Y)}{\sqrt{Var(X)Var(Y)}}

极限定理

极限定理是概率论的基本定理之一,在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中,最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律,是概率论和数理统计的基本定律之一。设X_1,X_2,...,X_k,...是随机变量序列且E(X_k)存在,令Y_n=\frac{1}{n}\sum_{k=1}^{n}X_k,若对于任意给定的\epsilon>0,有:
\lim_{n\rightarrow\infty}P\{|Y_n-E(Y_n)|\geq \epsilon\} = 0
则称随机变量序列\{X_k\}服从大数定律。

  • 伯努利大数定律

n_An次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意的正数\epsilon>0,有:
\lim_{n\rightarrow \infty}P\{|\frac{n_A}{n}-p|<\epsilon\} = 1

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

  • 切比雪夫大数定律

设随机变量X_1,X_2,...,X_k,...相互独立,且具有相同的期望与方差,则对于任意的正数\epsilon>0,有:
\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\}=1

  • 辛倾大数定律

设随机变量X_1,X_2,...,X_k,...相互独立,服从相同的分布,且其期望E(X_k)=\mu,则对于任意的正数\epsilon>0,有:
\lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\} = 1

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量X具有期望E(X)=\mu,方差Var(X)= \sigma^2,则对于任意\epsilon>0,有:
P\{|X-\mu|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2}

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中,一些现象收到许多相互独立的随机因素的影响,如果每个因素的影响都很小,那么总的影响可以看作是服从正态分布,中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下,断定随机变量序列X_1,X_2,...,X_k,...的部分和Y_n=\sum_{k=1}^{n}X_k的极限分布为正态分布的定理,均称为中心极限定理。

  • 独立同分布的中心极限定理

设随机变量X_1,X_2,...,X_k,...相互独立,服从同一分部,并且具有期望和方差:E(X_k)=\mu,Var(X_k)=\sigma^2>0,k=1,2,...,,则随机变量:
Y_n = \frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}
的分布函数收敛至标准正态分布函数。从中心极限定理可知,当n足够大时,Y_n近似服从标准正态分布N(0,1)

4.拉普拉斯中心极限定理

设随机变量X_1,X_2,...,X_k,...相互独立,并且服从参数为p的两点分布,则对于任意实数x,有:
\lim_{n\rightarrow\infty}P\Big\{\frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}}\leq x\Big\} = \Phi(x)
\sum_{i=1}^{n}X_i服从二项分布B(n,p),当n足够大时,B(n,p)近似于正态分布,它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体,个体和简单随机样本

在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体,组成总体的每个基本单元叫做个体。从总体X中随机抽取一部分个体X_1,X_2,...,X_n,称其为取自X的容量为n的样本。

若总体X具有分布函数F(x),则(X_1,X_2,...)的概率联合分布为:
F(X_1,X_2,...,X_n) = \prod_{i=1}^{n}F(x_i)
联合概率密度函数:
f(X_1,X_2,...,X_n)=\prod_{i=1}^{n}f(x_i)

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,一次对所研究的问题做出一定的结论,这一过程被称为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量,因此统计量是样本的某中函数。

X_1,X_2,...,X_n是总体X的一个简单随机样本,T(X_1,X_2,...,X_n)为一个n元连续函数,且T中不含任何关于总体的未知函数,则称其为一个统计量,称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、k阶样本原点矩、k阶样本中心矩和顺序统计量等。

4.常用的分布

  • 卡方分布

X_1,X_2,...,X_n是来自总体N(0,1)的一个简单随机样本则称统计量:
Y=X_1^2+X_2^2+...+X_n^2
为服从自由度为nX^2分布。

  • t分布

X\sim N(0,1),Y\sim X^2(n),且X,Y相互独立,则称随机变量:
T=\frac{X}{\sqrt{Y/n}}
为服从自由度为nt分布。

  • F分布

X\sim X^2(n), Y\sim X^2(m),且XY相互独立,则称随机变量:
F=\frac{X/n}{Y/m}
为服从自由度为(n,m)F分布。

Reference

[1] 统计建模与R语言

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容