AI学习笔记之数学基础三(数理统计)

数理统计对已有的数据进行解释,它也是AI领域的重要组成部分。

1. 数理统计的意义:

基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解读,数据的价值才能够体现。

2. 相关概念:

数理统计(mathematical statistics)根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断。

  • 数理统计和概率论的关系
    • 数理统计以概率论为理论基础,研究对象则是未知分布的随机变量,研究方法是对随机变量进行独立重复的观察,根据得到的观察结果对原始分布做出推断。
    • 概率论作用的前提是随机变量的分布已知,根据已知的分布来分析随机变量的特征与规律;
    • 数理统计可以看成是逆向的概率论,以彩票为例:概率论根据摇奖规律判断中奖可能性,数理统计用以往的记录来推断。
  • 样本(sample):有限的数据集合。样本通常由对总体进行多次独立的重复观测而得到,这保证了不同的样本值之间相互独立,并且都与总体具有相同的分布。
  • 总体(population):观察对象所有的可能取值。数理统计的任务就是根据样本推断总体的数字特征。
  • 样本均值:
  • 样本方差:
  • 参数估计(estimation theory):通过随机抽取的样本来估计总体分布的方法
    • 点估计(point estimation):在已知总体分布函数形式,但未知其一个或者多个参数时,借助于总体的一个样本来估计未知参数的取值就是参数的点估计。
      • 点估计的核心在于构造合适的统计量 θ̂ ,并用这个统计量的观察值作为未知参数 θ 的近似值。
      • 矩估计法(method of moments):
        • 矩表示的是随机变量的分布特征,k 阶矩的定义为随机变量的 k次方的均值,即 E(X^k)。
        • 样本的 k 阶矩估计总体的 k 阶矩,样本矩的函数几乎处处收敛于总体矩的相应函数.
      • 最大似然估计法(maximum likelihood estimation):
        • 既然抽样得到的是已有的样本值,就可以认为取到这一组样本值的概率较大,因而在估计参数 θ 的时候就需要让已有样本值出现的可能性最大。
        • 似然函数被定义为样本观测值出现的概率,确定未知参数的准则是让似然函数的取值最大化,也就是微积分中求解函数最大值的问题。
      • 估计量评价标准
        • 无偏性:估计量的数学期望等于未知参数的真实值;
        • 有效性:无偏估计量的方差尽可能小;
        • 一致性:当样本容量趋近于无穷时,估计量依概率收敛于未知参数的真实值。
      • 置信区间(confidence interval):在估计未知参数 θ 的过程中,除了求出估计量,还需要估计出一个区间,并且确定这个区间包含 θ真实值的可信程度。
        • 对总体反复抽样多次,每次得到容量相同的样本,则根据每一组样本值都可以确定出一个置信区间 (θ−,θ¯),其上界和下界是样本的两个统计量,分别代表了置信上限和置信下限。
      • 置信水平:对所有置信区间中包含 θ真实值的比率进行统计
    • 区间估计(interval estimation):
  • 假设检验(hypothesis test):参数估计的对象是总体的某个参数,假设检验的对象则是关于总体的某个论断,即关于总体的假设。
    • 假设检验的作用就在于根据学习器在测试集上的性能推断其泛化能力的强弱,并确定所得结论的精确程度,可以进一步推广为比较不同学习器的性能。由于度量学习器性能的常用指标是错误率.
  • 小概率事件:发生概率小于 1% 的事件。如果样本中出现了小概率事件,就认为这不是真正意义上的小概率事件,原始的假设也就此被推翻。
  • 数理统计看监督学习:在假设空间中搜索能够针对特定问题做出良好预测的假设。
  • 泛化能力:学习器通过对测试数据集的学习得到具有普适性的模型,这个模型适用于不属于测试集的新样本的能力被称为泛化能力。泛化能力越强,学习器就越好。
    • 对泛化性能的解释也是机器学习算法分析的重要内容。泛化误差的构成可以分为三部分:偏差(bias)、方差(variance)和噪声(noise)。
    • 偏差:算法预测值和真实结果之间的偏离程度,刻画的是模型的欠拟合特性;
    • 方差:数据的扰动对预测性能的影响,刻画的是模型的过拟合特性;
    • 噪声:在当前学习任务上能够达到的最小泛化误差,刻画的是任务本身的难度。
    • 偏差和方差都难以实现同时优化。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容