独立性假设 与 先验后验

1.机器学习假设训练集样本独立同分布

机器学习建立在当前获取到的历史数据 [训练集],对未来数据进行预测、模拟。

https://www.zhihu.com/question/41222495/answer/790291550

选定模型,优化参数\theta,使 likelihood 最大。

  • 极大似然估计 (MLE) 是经验风险最小化 (ERM) 的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.
  • 贝叶斯估计中的最大后验概率估计 (MAP) 是结构风险最小化 (SRM) 的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数, 模型复杂度由模型的先验概率表示时, 结构风险最小化等价于最大后验概率估计.

1.1 独立同分布 independent and identical distribution

  • x1,x2 不独立,说明其具备一定相关性,即之间存在某种函数关系,取值互相影响
  • 同分布:对于离散变量有相同分布律,对于连续变量有相同的概率密度函数 PDF;也反映了训练集中这些数据属于同一 task

1.2 likelihood 极大似然估计 MLE

当样本符合独立性假设后,likelihood 转化为 各个样本发生概率之积
l(\theta)=P(x_1,x_2,x_3,...,x_n|\theta)=P(x_1|\theta)*P(x_2|\theta)*...*P(x_n|\theta)

l(\theta) = P(x_1,x_2,x_3,...,x_n|\theta) = \prod_{i=1}^{n} P(x_i|\theta)

likelihood 取 max,再使用 log 将乘法转化为加法,即 条件对数似然,起到简化问题作用

\operatorname*{argmax}_\theta l(\theta) = \operatorname*{argmax}_\theta log(l(\theta)) = \operatorname*{argmax}_\theta \sum_{i=1}^{n} log(P(x_i|\theta))

2.贝叶斯公式与先验后验

参考:https://zhuanlan.zhihu.com/p/38567891

2.1 全概率与贝叶斯

二者互为“逆”定义

  • 全概率:由因
  • 贝叶斯:由果
    右侧分子 是 全概率公式中右侧求和的某一项
    右侧分母 是 全概率公式中右侧求和

2.2 先验 prior 后验 posterior

贝叶斯判断 A 事件的发生源于哪个因素的概率,类比分类问题
此时分母P(A) = P(x)即此样本已经产生
判断这个样本属于哪个类y_i,即P(y_i|x)

  • 先验概率:P(y_i),由数据集统计信息得到的各类y_i发生概率,预先得到的先验知识
  • 后验概率:P(y_i|x),取样本x后,计算x属于某个已知类的概率

先验后验关系
posterior = \frac{prior * likelihood}{evidence}

  • prior = P(y_i),已知样本中,y_i类所占概率
  • likelihood = P(x|y_i),已知样本中,假设x \in y_i类,x发生的概率
  • evidence = P(x),取样本x,此概率常视为常数
  • posterior = P(y_i|x),取样完成后,计算后验概率

实例,假设有两个盒子,分别为红色和蓝色。
在红色盒子中放着2个青苹果和6个橙子,在蓝色盒子中放着1个橙子和3个青苹果
假设每次实验的时候会随机从某个盒子里挑出一个水果

  • 随机变量B表示挑出的是哪个盒子,P(B=blue) = 0.6, P(B=red) = 0.4
  • 随机变量F表示挑中的是哪种水果,F的取值为"a (apple)"和"o (orange)"。

现取出1个橘子,求其取自红盒的概率,此例中

  • prior:P(B=red) 红盒这个类发生的概率
  • likelihood:P(F=o|B=red) 假设是红盒,取出橘子的概率
  • evidence:P(F=o) 取出水果是橘子的概率(全概率求解)
  • posterior:P(B=red|F=o) 事实取出橘子,来自红盒的概率

P(B=red|F=o) = \frac{P(B=red)*P(F=o|B=red)}{P(F=o)}

3. 朴素贝叶斯 Naive Bayes

朴素贝叶斯分类器 - 维基百科
独立性假设:https://zhuanlan.zhihu.com/p/35605570
https://sylvanassun.github.io/2017/12/20/2017-12-20-naive_bayes/

两个独立性假设上

  • 数据样本独立同分布,样本之间独立,使训练集样本整体 likelihood 求解简单
  • 特征条件独立性假设,样本内部特征独立,使P(F_1,...,F_n|C)条件概率求解简单
    样本内部特征:比如图像x表示成n维向量,这n个特征独立使条件概率求解简单
    总结来看,假设 2 是为了实际 code 需要从提取特征维度让条件概率独立

NB 是生成模型,分子P(C)P(F_1,...,F_n|C)等价于联合分布P(C,F_1,...,F_n)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269