结构化机器学习项目

机器学习策略(一)

这节主要讲深度学习中的一些策略,或许可以帮助我们少走一些弯路(比如你寻找了很久的数据,但其实是算法本身出了问题。)

正交化:一个“按钮”只做一件事。不要互相影响


多个指标通常不能很好指示出算法效果。所以最好是用单一评估指标来平价


在有多个指标时,可以将其中一个设为优化目标,其他的可以为满足目标,也就是在满足一个阈值范围内的都可以。


训练集,验证集,测试集都要在同一分布下。一般项目的循环是:idea——》code——》change


传统划分这几个集时,按照前两种就可,因为数据量其实并不大。但是在深度学习时代,假设数据达到百万级别,当你的测试集为1%时,也有一千条数据了,所以 像第三种情况设置也是可以的惹


                                                             虽然只看数据,A效果好,但是A无法过滤“色情图片”,(Andrew视频里就是这个例子啊~)让用户很不满意(?)   ,所以可以把 将色情图片误分的权重增加十倍。最后使用所有的权重和进行归一化。    

感觉这一部分很多方法论的东西。1.找好你的metric(就是要达到的目标)2.想方设法的接近它


比较人和计算机的性能,绿色的线是贝叶斯最优误差,就是自然能达到的最大精度,不是所有的问题都能达到百分百精度的哦~



human-training error为可避免偏差,training -development error为方差,在这里把human能达到的精度视为贝叶斯最优误差了。


对于很多非自然感知问题,机器的水平事实上比人高了。就像下图几种领域。在部分的自然感知领域,计算机的水平也已经超越了单个人类





机器学习策略(二)

对误差分析时,有时可以采取人工误差分析来判断要把改正的重点放在哪一个方面上。


凡事分情况考虑,在右边的例子中由于打错标签使得这一项占总错误率的30%,那么及时修正这些标签就变得很重要了


一些小tricks。最后一条,修正dev and test集合中的数据可能相对于容易点,那这样的话,train的分布可能会与这有一点点不同,但是没关系,本周后面会讲到这种分布不同的情况下怎么弄~


当你开始在一个领域搭建系统的时候,可以像敏捷开发那样,先构建原型进行快速迭代,然后再迭代中发现着重要解决的问题。


看图理解了,当训练集和测试集的分布不一致时,如何处理,不建议shuffle。将实际的一半的数据分在训练集中。

可以用先前收集到的数据作为训练集,划分方式和上面一样

当训练集和dev的分布不一致时:可以在训练集新分出来train-dev集,用来判断数据是bias还是不匹配问题。


这几个集合之间的关系


更加general的方法来进行误差分析


如何解决数据不匹配问题。1.人工检查是哪些问题引起的数据不匹配问题 2.构造数据使得训练集和开发集数据尽可能地一致。---》比较普遍的做法是使用人工合成数据。


迁移学习:当目标的数据太少时,可以先使用别的多的数据进行预训练,但是可能会有用,但别指望会很多用,以下是迁移学习的一些目标和条件。


multi-task:同一张图片能够区分出多个特征,与softmax回归不同的是,虽然它们输出的很像,但是softmax通常输入只包含一种类型~


在实际中,迁移学习比multi task用的更多

上面是流水线方法,端到端就是在输入和输出只放入一个巨大的神经网络


有时候可以适时地分解任务,因为对应的两个子任务,它们各自拥有更多的数据集来训练,而如果直接端到端反而没有那么多数据来训练。


端到端学习的重点:要有大量的数据。以下是它的优缺点



©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容