吴恩达Deep Learning学习笔记——第三课 结构化机器学习

目录链接:吴恩达Deep Learning学习笔记目录

 1.机器学习策略一
 2.机器学习策略二

1. 机器学习策略一

  什么是机器学习策略?假设我们正在调试一个用于识别猫的分类器,此时其准确率已经达到了90%,但还不够好。我们可能会有很多措施,如:
  ①收集更多的数据
  ②收集更多样性的数据(如不同姿势的猫)
  ③让梯度下降算法训练时间更长
  ④尝试更大(或更小)的神经网络
  ⑤尝试dropout
  ⑥添加L2正则
  ⑦改变神经网络结构(激活函数、隐藏层数、单元数等)
   ......
   但是,如果你作出了错误的选择,往错误的方向进行,那么最后的结果就是浪费时间。机器学习策略就是如何选择正确的方法来改善神经网络,并行之有效。

  1.1 正交化

  此时,你需要清晰的明白,你所改变的一个参数(或方法)对于你的模型将有什么样的影响,能够达到什么样的效果。如一辆汽车,方向盘调整方向,油门加速,刹车减速,各自达到一个效果,但三个操作会得到一个最终结果:在某个方向上速度为多少移动。假设现在有个控制器,将三个操作以不同的权重加和,虽然通过调整最终也能获得一样的结果,但过程比较复杂。所以设计正交化的参数(或方法)比较容易调试,也就是应该按照独立的步骤一步步进行,而不是混合在一起进行。

  1.2 单一数值评估指标

   如在分类识别任务中,查准率和查全率往往是趋势相反,如果同时用两个指标来考察两个分类器的优劣,很难决定哪一个分类器在这个任务上更好,因此需要一个单一的评估指标来进行比较,如F1 score。

  1.3 满足和优化指标

&emsp&emsp这一方法是指,分别定义需要满足的指标和需要去优化的指标,比如猫分类器中,定义:
  需要满足的指标:运行时间小于100ms即满足要求,
  需要优化的指标:准确率。
显然,此时只要运行时间小于100ms的分类器都可以进入备选,最后只需要在这些备选中选出准确率最高的分类器即可。更一般的,如果需要优化的指标有多个,此时需要定义一个为优化指标,其他为满足指标进行评估比较。

  1.4 数据集划分

  ①训练集,验证集,测试集应该是同分布的,否则将会导致训练出来的模型,在测试集上可能效果不好;至少验证集和测试集是同分布的。
  ②在机器学习中,一般将训练集和测试集以7:3的比例划分,或者按train : val :test = 6 : 2 : 2划分。在机器学习早期这样的划分是合理的,特别是以前的数据集较小的情况下。但现在的机器学习,数据集较大,如百万级别,train : val :test = 98 : 1 : 1的划分比例就够了。

  1.5 何时改变评估指标

  假设有两个分类器,A,B。A识别猫的错误率为3%,但会将一些和谐的图片当作猫推送给用户;B识别猫的错误率为5%,但不会将和谐图片当作猫推送。如果采用错误率来对算法性能进行排序,排序结果就是算法A更好,但实际上我们更倾向于算法B,此时我们需要改变评估指标为:

权重w(i),当x(i)为和谐图时为10,当不是和谐图时为1,如此,检测到和谐图时,错误率会急剧上升。结论:如果现有评价指标不能正确对算法性能进行排序,那么就要花时间重新定义一个评价指标。

  1.6 人的表现和模型的表现

(1)为什么是人的表现?
    ①随着机器学习的发展,有的模型的性能已经能够威胁人的表现;②试图让机器做人类能做的事时,可以精心设计机器学习系统的工作流程,让工作流程效率更高。
   对于机器学习,开始往人类水平努力时,进展是很快的,但当这个算法的性能超过人后,提升就会变得很缓慢。我们希望算法性能能够达到理论上限,但实际上其性能无法超过某个理论上限,这个上限称为贝叶斯最优错误率。为什么超过人类水平后,提升变慢?①人类水平已经离上限较近,改善空间较小;②算法性能低于人类水平时,可以通过某些手段来改善,但超过人类水平,这些手段就没那么好用了。比如在图片识别中,人类水平很高,当算法水平较低时,你可以:
   人为的对数据进行标记,然后喂给算法;
   分析人在识别图片时,是如何识别正确的;
   进行偏差和方差分析
(2)可避免偏差?
   将人类水平视作贝叶斯最优错误率,训练集性能与人类水平之间的差别称为可避免偏差。


(3)理解人类表现

  1.7 模型改善

   ①对于训练集拟合得很好,避免高偏差

   ②推广到验证集和测试集,避免高方差

2. 机器学习策略二

  2.1 误差分析

image.png

    假设有一个模型用于识别猫和狗,识别错误率为10%,实验发现会将一些狗识别为猫,所以针对狗得识别对算法进行优化,这样做值不值得呢?可以通过误差分析来解答这个问题。取100个被识别错误的样本,统计其中狗被识别错误的占比,假设我们能够将算法优化到将所有狗都识别正确(性能上限),那么总错误率10% * 占比即本次算法优化掉的错误率。例如,当这100个样本中仅有5%属于狗被识别错误,那么优化后,错误率仅由10%降低至9.5%,降低比例为10% * 5% = 0.5%,此时明显花时间在优化识别狗上是不合适的;当100个样本中有50%被识别错误时,则能将10%降低至5%,此时优化算法识别狗的功能是极具意义的。

   当模型有几个改善的方向时,如狗被识别为猫、猫类被分类错误、提升模糊图片的识别率,那么,此时需要分析在哪一个方向花更多的时间更为有效。通常可以将被错误分类的样本做一个统计,统计各个样本被错误分类的占比,确定优化方向的优先级:

  2.2 清除标记错误数据

   Deep learning对于随机性错误数据比较健壮(某个数据被不小心标记错了),但对于系统性错误会导致模型性能较低,如将所有白色的狗都标记为了猫。如果是验证集和测试集中有标签错误,则应在误差分析表中增加一列分析被标记错误的样本占比。
   修正原则:①修正方法同时作用于验证集和测试集上;②对预测正确的例子也进行标记修正;③如果不同时对训练集进行修正,可能导致三个数据集分布稍微有点差异(但算法通常比较健壮的话,可以忽视,增加泛化性)

  2.3 数据划分问题

   假设需要构建一个模型用于识别APP上传的图片中的猫,在网页上可以获得大量的高清图片数据(200,000),但在APP上传得到的图片数量较小(10,000),且模糊,那么,显然仅用APP上传的数据用于训练,数据量太小,我们该如何处理这个问题呢?
   ①将两个数据集混合后打乱,再划分train-val-test,这样能够达到三个子集同分布。但存在一个较大的问题,如此划分得到的val-test数据集很大一部分是网络图片,并不是我们想要关心的数据分布,实际上训练出来的模型更适合于网页图片,而不是APP图片。

   ②将APP图片分为三部分,5000加入到训练集,2500作为验证集,2500作为测试集。这样划分的好处在于,优化模型的时候是以APP数据集为目标进行划分,最终模型对于APP图片的识别性能更好。但缺点是数据集不是同分布。

  2.4 不同分布数据集的偏差和方差(数据不匹配问题)

   还是识别猫的图片,贝叶斯最优错误率认为0%,train error 1%,val error 9%,如果是同分布的数据,那么可以得出模型高方差过拟合的结论,但是,如果训练集和验证集不是同分布的,就无法得出这个结论,因为导致这个高错误率的因素包含①模型只了解训练集,②数据集不是同分布,那么就很难知道这个高错误率有多少是由于这两个原因造成的。
   那么,此时作偏差和方差分析,需要重新设定一个同分布的train-val,将原有的训练集划分一部分出来作为验证集来对模型进行评估,再来分析这个模型是否存在偏差或方差问题。通过对比同分布的新验证集和不同分布的原验证集的误差来确定哪一个因素导致误差升高(方差或非同分布)。


尝试解决数据不匹配问题的方法 非系统性方法,不一定起用
   ①分析导致val-test与train差异的因素,如车载导航语音识别中,验证集可能噪音较多,含有街道号等;
   ②使训练集更接近验证集(如人工合成模拟汽车环境中的语音,但可能会造成过拟合问题),或者收集更多类似验证集的数据;

  2.5 迁移学习

  从一个任务中学习得到的内容应用到另一个任务上去即为迁移学习。如将识别猫狗的网络用于放射片识别,将输出层去掉后替换成新的输出层,并初始化最后一层的权重,重新训练,可以只更新最后几层的参数(新数据量较少时),也可以全部更新。为什么这种迁移是有用的呢?因为之前训练出来的网络,学习到了一些关于图片的结构化信息,比如边缘、点、线等,这相当于一个预训练的过程。

  2.6 多任务学习

  如自动驾驶任务中,需要识别的不仅是车辆,还有行人、路标、交通灯等,此时一个样本的标签就不仅是一个,而是多个。

  2.7 end-to-end 学习

  如语音识别中,end-to-end学习,①通过MFCC学习到人工设计的特征。②通过ML学习到发音,③再到单词,④再到翻译,这个过程是分阶段进行的。但这种方法需要大量的数据支持。


  如人脸识别,①在第一步选取人脸的时候可以有很多数据,可以不用公司员工的照片数据,②第二步,识别两张照片是否是同一个人,也可以从其他渠道获取。但如果要一步到位进行人脸识别,那么仅仅只能采用公司内员工人脸数据,数据量较小。显然end-to-end的方法更优异。


end-to-end 学习的优缺点

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,198评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,663评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,985评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,673评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,994评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,399评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,717评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,407评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,112评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,371评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,891评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,255评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,881评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,010评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,764评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,412评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,299评论 2 260

推荐阅读更多精彩内容