机器学习相关数学概念

Positano 波西塔诺
极大似然估计

已知观察样本 \{X_1, X_2, \cdots, X_n\},已知概率分布模型,估计概率分布模型中的参数,使得产生这个观察样本的可能性最大。

概率质量函数

概率质量函数 (Probability Mass Function) PMF 是离散随机变量在各特定取值上的概率: f_X(x) ,代表随机变量 X=x 时的概率。

累积分布函数

累积分布函数又称分布函数 (Camulative Distribution Function) CDF 。F(x) = P\{X \leq x\} 表示为随机变量小于等于某个值得概率,这个表达式称之为 X 的分布函数。

概率密度函数

概率密度函数 PDF 在 (-\infty , x] 上的积分其实就是分布函数 F(x) 的值。X 为连续随机变量。

伯努利分布

伯努利分布又称为两点分布或者 0-1 分布。伯努利实验是只有两种可能的单次随机试验。分布律为 P\{X=x\}= p^x(1-p)^{1-x}

二项分布

Binomial Distribution 是 n 重伯努利分布实验成功次数的离散概率分布,记为 X{\sim}B(n, p)

多项式分布

多项式分布 Multinomial Distribution 是二项分布的推广。一次实验可能产生 m 个结果,m 个结果发生的概率对立(和为1),则发生其中一个结果 X 次的概率就是多项式分布。

逻辑斯蒂分布

Logistic Distribution

先验概率

先验概率就是事情尚未发生之前,我们对事件的概率的估计。利用过去历史资料计算的得来的先验概率称之为客观先验概率;当历史资料无从取得或不完全取得时,凭借人们的主观经验判断而得到的概率称之为主管先验概率。

后验概率

通过调查或其他方式获取新的附加消息,利用贝叶斯公式对先验概率进行修正而到的概率。这是在考虑了一个事实之后的条件概率。

似然函数

似然函数是一种统计模型参数 \theta 的函数,反应的是样本发生的概率。数学表达式为 L(\theta) = L(x_1, x_2, ..., x_n ; \theta_1, \theta_2, \cdots, \theta_n) 。参数 \theta 不同,事件 A 发生的概率P(A\mid\theta)也不同。在离散随机变量上L(\theta) = L(x_1, x_2, \cdots, x_n;\theta) = \prod_{i=1}^nP(x_i;\theta) 。对似然函数取对数即为对数似然函数。

极大似然估计法原理就是固定样本观测值 (x_1,x_2,\cdots,x_n) 挑选参数 \theta ,使 L(x_1,x_2,\cdots,x_n;\hat{\theta})=maxL(x_1,x_2,\cdots,x_n;\theta) 。在误差服从正态分布的前提下,最小二乘法与极大似然估计思想本质上是相同的。

条件概率

事件 A 在另外一个事件 B 已发生情况下的概率 P(A\mid B)

方向导数

方向导数可以理解为对某一维的偏导的左右两个导数。

梯度

所有方向导数中只存在一个最大值(一个面过一点的切平面只有一个,过这一点的所有切线方向都会在这个切平面上)。梯度是一个向量,梯度的方向是此点方向导数取得最大值时的方向,梯度的值是方向导数的最大值。对每一个点 (x_0,y_0) 可以定义出一个向量 f_x(x_0,y_0)\vec{i} + f_y(x_0,y_0)\vec{j} 为P点的梯度 \Delta{f(x_0,y_0)}

几率

几率(odds) 指事件发生与不发生的概率比值。若发生的概率为 p , odds = \frac{p}{1-p} .

对数几率 (log odds 或 logit) logit(p) = log\frac{p}{1-p}.

推荐阅读更多精彩内容

  • 文章作者:Tyan博客:noahsnail.com[http://noahsnail.com] | CSDN[ht...
    SnailTyan阅读 45,888评论 6 91
  • 深度学习(花书) 第一章 前言 本章节描述了深度学习的发展历史,应用前景,发展趋势,粗略的介绍机器学习如何有别于软...
    迷途的Go阅读 312评论 0 1
  • 夜已深,刚和老公从露台上回到卧室,刚才的睡意散了,就躺在床上,随手写下这两天的流水账日记。 前几天接了个母婴文案的...
    昕若初阅读 167评论 0 0
  • D太是我的婚礼策划师。她的婚庆公司真的很棒。从婚礼策划,到婚纱设计,即使是花艺搭配都是尽善尽美,让你无从挑剔。 我...
    果木木阅读 540评论 4 9