概率论与数理统计知识点小结

随机事件

全概率公式 P(A) = \sum_{i=1}^nP(A|B_i)P(B_i)

贝叶斯公式 P(B_k|A) = \frac{P(A|B_k)P(B_k)}{\sum_{i=}^n)P(A|B_i)P(B_i)}

排列组合(只能刷题了)

公式:A_n^r = n(n-1)(n-2)…(n-r+1) = P_n^r​

C_n^r = \frac{P_n^r}{r!} = \frac{n!}{r!(n-r)!}

(a+b)^n = \sum_{i=0}^n C_n^r a^rb^(n-r)

C_n^r = C_n^{n-r}

重复组合,又放回的抽r次:C_n^{n+r-1}

随机变量分布及统计量

分布函数

F(X) =P(X \le x)

性质:1)单调不减 2)F(- \infty)= \lim \limits_{x \to -\infty}F(x) = 0 , F(+\infty) =1 ; 3) 右连续

期望:EX = \sum_{i=1}^nx_iP(x_i)

方差:Var(X) = E[X-EX]^2 = EX^2 -(EX)^2

协方差:Cov(X,Y) = E[(X-EX)(Y-EY)] = EXY - EXEY

相关系数: Corr(X,Y) = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} \in [-1, 1]

分布函数 期望 方差 备注
0-1分布 b(1,p) P(X=x) = p^x(1-p)^x p p(1-p)
二项分布b(1,p) P(X=k) = C_n^kp^k(1-p)^{(n-k)} np np(1-p)
泊松分布P(\lambda) P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda} \\ \lambda \ge 0, k=0,1,2,... \lambda \lambda 二项分布分的极极限C_n^kp^k(1-p)^k \to \frac{\lambda^k}{k!}e^{-\lambda} (n \to \infty), \lambda = np
几何分布G(p) \frac{1}{p}
超几何分布H(n,M,N) P(X=x) = \frac{C_M^xC_{N_M}^{n-x}}{C_N^n} \frac{nM}{n} 设有N个产品中,有M个不合格,从中随机不放回的抽n个。其中不合格品为x个的概率
均匀分布U(a,b) P(x) = \frac{1}{b-a} \ \ a \le x \le b \frac{a+b}{2} \frac{(b-a)^2}{12}
指数分布Ex p(\lambda) P(x) = \lambda e^{-\lambda x} \ \ x \ge0 ELSE 0 x < 0 \frac{1}{\lambda} \frac{1}{\lambda^2}
正态分布N(\mu, \sigma^2 ) P(x) = \frac{1}{\sqrt{2 \pi }\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \mu \sigma^2

切比雪夫不等式 P(|x-\mu| > \varepsilon) \le \frac{Var(x)}{\varepsilon^2}

伯努利大数定律:随着n增大,频率与概率有较大偏差的可能性越来越小

\lim \limits_{x \to \infty} P(|\frac{X_n}{n} -p| > \varepsilon ) = 0

中心极限定理:对独立同分布随机变量序列(这个共同分布可以是离散的、连续的、正态的、非正态的),只要其共同分布的方差存在,且不为0,那么这n个独立同分布的随机变量之和的分布渐进近似于正态分布。
Y_n^* = \frac{X_1+X_2+...+X_n}{\sqrt{n} \sigma} \\ \lim \limits_{n \to \infty} P(Y_n^* \le y) =\Phi(y)

Y_n^* 为标准化向量,\Phi(x)为正态分布函数。 EX = \mu, Var(X) =\sigma ^2 \ \ (0 < \sigma^2 < \infty )

样本及抽样分布

简单随机样本 : iid

统计量:随机变量的函数(不含参数),也是随机变量

三大抽样分布

\chi^2 分布: \chi^2 = X_1^2 + X_2^2 +...+X_n^2, 记为 \chi^2 \thicksim \chi^2(n)。其中X_i \thicksim N(0,1), n 为自由度

  • 可加性: \chi_1^2(n_1)+\chi_2^2 (n_2) \thicksim \chi^2(n_1+n_2)
  • 期望方差: E(\chi^2(n)) = n, D(\chi^2(n)) = 2n
  • 分位点:单侧分布

t 分布:t = \frac{X}{\sqrt{Y/n}},记为t \thicksim t(n)。其中X \thicksim N(0,1), Y\thicksim \chi^2(n), n为自由度

  • more heavily-taled
  • n趋于无穷大时,附近正态分布
  • 分位点:对称分布

F 分布:F = \frac{U/n_1}{V/n_2},记为 F\thicksim F(n_1,n_2)。其中 U \thicksim \chi^2(n_1), V \thicksim \chi^2(n_2)

  • 单侧分布

  • \frac{1}{F(n_1,n_2)} \thicksim F(n_2, n_1)

  • 分位点 F_{1-\alpha} (n_1,n_2) = \frac{1}{F_{\alpha}(n_2,n_1)}

参数估计

矩估计

​ 多个参数需要多阶矩:
\mu_1= E(X) \\ \mu_2 = E(X^2) = D(X) + E(X)^2
最大似然估计
\prod_{i=1}^n P(x_i;\theta) 使其最大的 \hat{\theta} \\ 最大似然函数 \to 取对数 \to 求导 \to 求参数
评选标准

无偏性

\bar{X} \to \mu, \ \ \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X}) \to \sigma^2
E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2] = \frac{1}{n-1}E[\sum_{i=1}^n(X_i^2 - 2X_i\bar{X} + \bar{X}^2)] \\ =\frac{1}{n-1}E(\sum_{i=1}^n X_i^2 - \sum_{i=1}^n 2X_i\bar{X} + \sum_{i=1}^n\bar{X}^2) \\= \frac{1}{n-1} E(\sum_{i=1}^n X_i^2 - 2n \bar{X}^2 + n\bar{X}^2) \\ = \frac{1}{n-1} (E\sum_{i=1}^n X_i^2 - nE(\bar{X}^2))
其中
nE(\bar{X}^2) =n E[(\frac{1}{n}\sum_{i=1}^nX_i)^2] \\= n\frac{1}{n^2} E(\sum_{i=1}^n X_i^2 +2\sum_{i!=j} X_iX_j ) \\ = \frac{1}{n}[\sum_{i=1}^nE(X_i^2) + 2\frac{n(n-1)}{2} E(X_i)E(X_j)) ] \\ = DX + \bar{X}^2 + (n-1)\bar{X}^2 = DX + n\bar{X}^2
带回可得
E(S^2) = \frac{1}{n-1}[nDx+n\bar{X}^2 - DX - n\bar{X}^2] = DX = \sigma^2

有效性
D(\hat{\theta_1}) \le D(\hat{\theta_2}) , 则 \hat{\theta_1} 更有效
相合性\hat{\theta}(X_1,X_2,...,X_n)依概率收敛于\theta
\lim \limits_{n \to \infty} P\{ |\hat{\theta} - \theta| < \varepsilon\}= 1

区间估计

抽样分布.jpeg

假设检验:

总体已知
假设检验.jpeg
假设检验二.jpeg
总体未知

拟合优度检验 :样本是否来自某个分布F(x),主要思想是当X来自分布F(x),那么事件的频率与概率的差值不会太大。因此构造统计量:
\sum_{i=1}^kC_i(\frac{f_i}{n}-p_i)^2 \\ C_i为常数,当C_i= n/p_i 时, \chi^2 = \sum_{i=1}^k\frac{n}{p_i}(\frac{f_i}{n}-p_i)^2 = \sum_{i=1}^k \frac{f_i^2}{np_i} -n \\ 当n充分大,近似服从 \chi^2(k-1)
第一类错误与第二类错误:因为是控制第一类错误的概率\alpha,因此H_0是受到保护的,不轻易拒绝原假设。一般选两类错误中后果严重的错误为第一类错误。如果两类错误没有哪一类更严重,常常取H_0维持现状。

ANOVA(方差分析):可以用来比较多组总体的均值

推荐阅读更多精彩内容