构建机器学习算法

  • 本文首发自公众号:RAIS,点击直接关注。

前言

本系列文章为《Deep Learning》读书笔记,可以参看原书一起阅读,效果更佳。我们前面也介绍了一些构建机器学习或深度学习的一些内容,理解了其中部分原理和这么做的原因,接下来我们总结一下,跳出来从更高一点的方面去概括的看一看,也许会有不同的感觉。

构建机器学习算法

构建机器学习算法是有套路的:特定的数据集、代价函数、优化过程和模型。数据集比较好理解,没有数据模型就没办法训练,需要做的事情可能是把不好是数据处理成好的数据,这属于特征工程方面的问题,在深度学习研究者中也有大量的时间花在了特征工程上。代价函数,机器学习的训练模型的过程就是优化代价函数的过程,尽可能使代价函数减小。一般的优化算法就是找损失函数梯度为零,或者说找到最小值(极小值)的一组参数。代价函数一般与 损失函数目标函数 进行一个对比,他们的区别是:

  • 损失函数:通常定义在一个数据点上来计算误差;
  • 代价函数:通常定义在整个训练集上来计算误差,是损失函数的平均值;
  • 目标函数:训练期间优化任何功能的最通用的术语,包括目标损失和结构损失(如代价函数 + 正则化)

具体那个式子叫做什么其实还是有一点争议的,不过不要纠结了,明确具体需要做什么就好了。我们这里需要提醒一下,由于模型的不同,不是所有的时候都能找到闭式解,例如非线性模型,这时需要用到数值优化的方法,比如梯度下降的方法逼近目标,不是这里的重点,注意就好。

遇到的问题

促使一门学科的发展从来都不是已经比较好解决了的问题,都是那些没有解决的问题,深度学习机器学习也是一样的,正是因为还存在各种问题才推动着其继续向前发展。

维数灾难

又名维数的诅咒,是不是有那么一种命中注定的感觉。每增加一个维度数据空间的大小都成指数级增长,要填满数据空间所需要的数据量就会急剧膨胀,反过来来说,数据量没那么大的情况下就会让数据在其空间的分布变得稀疏,也就是大量的特征没有数据去进行训练,必然会导致模型的泛化能力减弱。

维数灾难

局部不变性

为了更好的泛化,机器学习应该由先验引导应该学习什么类型的函数,其中最广泛的是平滑先验(局部不变性先验),说的是我们学习的函数不应该在小区域内发生很大的变化,这是我们可以直观理解的。一般情况下,这都能表现良好,问题是在高维空间上,即使非常平滑的函数在同维度上也有不同的变化,如果函数在不同的区间表现不一样,那就没办法用一组训练样本去刻画函数,也就没办法很好的泛化。

流形学习

流形学习可以用在维数约简方面,主要做法就是将高维的数据映射到低维,在低维上数据能够反映高维数据的本质特征,其中去除的是高维数据的一些冗余。反过来,也是因为这假设的是这个高维数据是原来低纬数据嵌入到高维空间中,流形学习是求其逆运算。

流形学习

总结

本文介绍了构建机器学习方法的一般步骤,及其所遇到的问题。

  • 本文首发自公众号:RAIS,点击直接关注。由于各平台 Markdown 解析差异,有些公式显示效果不好,请到我 个人维护网站 查看。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 82,441评论 1 181
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 29,290评论 1 148
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 34,203评论 0 105
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 18,763评论 0 90
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 24,080评论 0 150
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 19,931评论 1 90
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 12,601评论 2 167
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 11,973评论 0 82
  • 想象着我的养父在大火中拼命挣扎,窒息,最后皮肤化为焦炭。我心中就已经是抑制不住地欢快,这就叫做以其人之道,还治其人...
    爱写小说的胖达阅读 10,509评论 5 116
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 13,751评论 0 131
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 12,462评论 1 129
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 13,325评论 0 135
  • 白月光回国,霸总把我这个替身辞退。还一脸阴沉的警告我。[不要出现在思思面前, 不然我有一百种方法让你生不如死。]我...
    爱写小说的胖达阅读 8,088评论 0 18
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 10,903评论 2 122
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 14,088评论 3 130
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 9,693评论 0 3
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 10,029评论 0 81
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 14,667评论 2 139
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 15,148评论 2 136

推荐阅读更多精彩内容

  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 1,851评论 0 11
  • 》拟合训练数据和寻找能够泛化到新数据的参数有哪些不同。 》如何使用额外的数据设置超参数。 》机器学习本质上属于应用...
    N89757阅读 1,925评论 0 0
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,171评论 0 6
  • A 准确率(accuracy) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: 在二分类中,准确率定义为...
    630d0109dd74阅读 1,117评论 0 3
  • 本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。 A 准确率(accuracy) 分类模...
    630d0109dd74阅读 1,743评论 0 1