《机器学习》— 第1章 绪论

1. 引言

模型和模式

模型泛指从数据中学得的结果

【模型】:指全局性结果(如一棵判断什么是好瓜的决策树)


判断一个西瓜是否是好瓜的决策树

【模式】:指局部性的结果(如一条判断好瓜的规则)

例如:色泽乌黑、根蒂蜷缩、敲声浊响的是好瓜


一条判断好瓜的规则

2. 基本术语

2.1 数据相关

例如:x1=(色泽=青绿;根蒂=蜷缩;敲声=浊响),x2=(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),x3=(色泽=浅白;根蒂=硬挺;敲声=清脆),......

【数据集(data set)】:上面这组记录的集合

例如:这组西瓜的集合,x1=(色泽=青绿;根蒂=蜷缩;敲声=浊响),x2=(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),x3=(色泽=浅白;根蒂=硬挺;敲声=清脆),......

【示例 (instance)或样本 (sample)】:关于一个事件或对象的描述的每条记录

例如:对其中一个西瓜的描述,x1=(色泽=青绿;根蒂=蜷缩;敲声=浊响)

【属性(attribute)或特征(feature)】:反应事件或对象在某方面的表现或性质的事项

例如:色泽,根蒂,敲声

【属性值(attribute value)】:属性上的取值

例如:色泽=青绿,根蒂=蜷缩,敲声=浊响

【属性空间(attribute space)、样本空间(sample space)或输入空间(input space)】:属性张成的空间

例如:以西瓜的三种属性为三个坐标轴,建立坐标系得到的空间


属性空间

【特征向量】:空间中的每个点对应的坐标向量

例如:X1就是一个特征向量


特征向量


【数学表达】

一般的,令D表示包含m个示例(样本)的数据集,xi表示每个示例(样本),每个示例由d个属性描述,其中xij表示是示例(样本)xi在第j个属性的取值,d称为维数

数据集
示例


2.2 学习过程

【学习(learning)、训练(training)】:从数据中学得模型的过程

例如:从西瓜样本数据集中得到判断好瓜的决策树的过程

【训练数据(training data)、训练集(training set)】:训练过程中使用的数据,是数据集的子集

例如:为得到判断好瓜的决策树,我们从10000条对西瓜的描述的记录中选择其中的8000条记录的作为训练数据

【训练样本】:训练集中的每一个样本

例如:8000条记录中的每一条记录都是一个样本

【测试】:学得模型后,使用其进行预测的过程

例如:通过得到的判断好瓜的决策树,判断一个西瓜是否是好瓜的过程

【测试数据】:测试过程中使用的数据

例如:我们从10000条对西瓜的描述的记录中选择剩下的2000条数据作为测试数据

【测试样本】:测试集中的每一个样本

例如:剩下的2000条记录中的每一条记录都是一个样本

【假设】:学得模型对应的关于数据的某种潜在规律

例如:学得的判断好瓜的决策树对应的某种潜在规律就是一种假设)

【真相、真实】:潜在规律的自身

例如:判断好瓜决策树对应的“客观上判断好瓜的规律”可能与学习得到的判断好瓜决策树有出入

学习目的:为了找出或逼近真相

2.3 监督学习和无监督学习

【标记】:关于示例的结果的信息

例如:色泽=青绿;根蒂=蜷缩;敲声=>浊响的西瓜是好瓜

【样例】:拥有了标记信息的示例

例如:((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)

【标记空间、输出空间】:所有标记的集合

(xi,yi)表示第i个样例

有监督学习

对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测

所有的标记(分类)是已知的。因此,训练样本的岐义性低

【分类】:预测的是离散值

例如:好瓜,坏瓜

【回归】:预测的是连续值

例如:西瓜的成熟度0.95/0.37

无监督学习

对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识

所有的标记(分类)是未知的。因此,训练样本的岐义性高

【聚类】:将训练集中的样本分为若干组,每组称为一个“簇”,有助于我们了解数据内在的规律,能为更深入地分析数据建立基础

例如:“浅色瓜”、“深色瓜”,在聚类学习中,“浅色瓜”、“深色瓜” 这些概念事先我们是不知道的,而且学习过程中使用的样本通常不拥有标记信息

机器学习的目标

机器学习的目标是使学得的模型可以更好的适用于“新样本”,而不仅仅在训练样本上工作的很好,也就是拥有比较强的泛化能力,这样能更好的适用于整个样本空间,因此我们希望训练集合能很好的反应样本空间的特性

通常假设样本空间的全体样本服从一个未知分布Ɗ,我们获得的每个样本都是独立地从这个分布上采样获得的 ,即“独立同分布”;一般而言,训练样本越多,得到关于D的信息就越多,越有可能通过学习获得强泛化能力的模型

【泛化能力】:学得模型适用于新样本的能力

3. 假设空间

【归纳(induction)】:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律(机器学习显然是一个归纳过程)

演绎( deduction)】:从一般到特殊的“特化”过程,即从基础原理推演出具体情况

【假设空间】:所有的假设组成的空间

例如:(色泽=?)&&(根蒂=?)&&(敲声=?)的可能取值所形成的假设组成。

如色泽有“青绿” “乌黑” “浅白”,还需要考虑色泽无论取什么值都合适,我们用通配符“*”表示,此外还要考虑极端情况:有可能“好瓜”这个概率根本不成立,我们用O表示。若“色泽”、“根蒂”、“敲声”分别有3、2、2中取值。则假设空间的规模大小为4 x 3 x 3 + 1 = 37


西瓜问题的假设空间

【版本空间】:当存在多个假设与训练集一致时,这些与训练集一致的假设的集合


西瓜问题的版本空间


4. 归纳偏好

问题:现在有三个与训练集一致的假设,但是他们在面临新的样本的时候,却产生不同的输出

例如:对这个新瓜 (色泽=青绿;根蒂=蜷缩;敲声=沉闷),如果采用好瓜<->(色泽= *)&&(根蒂=蜷缩)&&(敲声=*)这个假设时,它会被判断为好瓜,然而当我们使用另外两个假设时,它却被判断为不好的

【归纳偏好】:机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法都必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的结果

例如:我们在每次进行预测是随机抽选训练集上等效的假设,那么对这个新瓜 (色泽=青绿;根蒂=蜷缩;敲声=沉闷),学习模型时而告诉我们它是好瓜,时而告诉我们它是不好的,这显然没有意义

【“奥卡姆剃刀”原则】:若多个假设与观察一致,则选择“最简单”的那个,这个“简单”并不简单

例如:对于上面三个与训练集一致的假设,哪一个更简单呢?

【“没有免费的午餐”定理(NFL)】:无论学习算法多聪明、学习算法多笨拙,他们的期望性能相同,但是有一个重要的前提:所有“问题”出现的机会相同或所有的问题同等重要

实际情况是很多时候我们只关注自己试图解决的问题,希望为它找到一个解决方案,至于其他问题甚至是相似的问题我们并不关心

NPL定理假设了 f 的均匀分布,而实际情况并非如此

NPL定理告诉我们脱离具体的问题,空泛地讨论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有算法一样好

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,408评论 4 371
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,690评论 2 307
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,036评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,726评论 0 221
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,123评论 3 296
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,037评论 1 225
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,178评论 2 318
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,964评论 0 213
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,703评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,863评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,333评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,658评论 3 263
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,374评论 3 244
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,195评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,988评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,167评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,970评论 2 279

推荐阅读更多精彩内容