[机器学习入门] 李宏毅机器学习笔记-35(Ensemble part 1;集成方法 part 1)

[机器学习入门] 李宏毅机器学习笔记-35(Ensemble;集成方法)

PDF VIDEO

Ensemble

俗称打群架,想要得到很好的performance,基本都要用这一手。
You already developed some algorithms and codes.Lazy to modify them.Ensemble: improving your machine with little modification.

Feamework of Ensemble

揪出一堆classifiers,最好是不同的,互补的,妥当地把他们集合起来,每一个classifier都扮演着不同的角色。

这里写图片描述

Ensemble 有很多不同的方法,是为了对待不同的状况。


Ensemble: Bagging

先回顾一下Bias和Variance

这里写图片描述

A complex model will have large variance.
We can average complex models to reduce variance.
If we average all the f*,is it close to f^.
所以,如果想让一个variance很大的model的error变小,可以训练好多个variance很大的model,然后把它们平均起来,这个方法就叫做Bagging。

这里写图片描述

Sampling N’ examples with replacement,then……

这里写图片描述

This approach would be helpful when your model is complex, easy to overfit. e.g. decision tree.


Decision Tree

决策树很容易过拟合,模型很easy。

这里写图片描述

决策树不仅仅能判断上图的简单问题,还能解决很多复杂问题。
比如……下图这个美少女,把初音的身体代表类别1,其他叫类别0,在这个二维平面上的值,就是input,来output判断是否在初音的身体上。

这里写图片描述

不同树深的实验表现

这里写图片描述

到这里很容易理解,决策树继续深下去完全可以做到training data上的完美,因为大不了它可以给每一个data分一个类,显而易见,这样很容易过拟合。

Decision Tree做 bagging 就是 Random Forest。

Random Forest

这里写图片描述

增加一些随机的特性,使树与树之间更不像。
每一次分出节点时,都要决定一下哪些feature 是可以用的,哪些是不可以用的,避免每一个树都长的很像。
有个bagging方法叫做Out-of-bag。

Out-of-bag(OOB)

这里写图片描述

这里写图片描述

bagging的目标不是在 training data 上的到更好的表现,而是让bias减小,得到的function更加平滑(初音的肌肤更加细腻)。

这里写图片描述


Ensemble: Boosting

Boosting 的目标和 Bagging 是相反的,Bagging是把减弱过拟合,而 Boosting 是即使不能 fit training data 的 model,也要想办法使 performance 更好,Boosting 通过把很多弱的 Classifiers结合起来,帮助得到强的 Classifiers。

这里写图片描述

就好比说,只要一个算法能比瞎猜好一点点,就能通过boosting变成一个超强的算法。
需要注意的是:The classifiers are learned sequentially.

How to obtain different classifiers?

不同的classifier通过在不同的 training data上做训练,不同的 training data 怎么得到呢?

这里写图片描述

Re-weighting 能使sample的次数不是整数而是小数。

Adaboost

The performance of f1 for new weights would be random.

这里写图片描述

举个栗子

Re-weighting Training Data

这里写图片描述

就比如,错的题分值变大,对的题分值变小,75分硬生生整成不及格。
How to find a new training set that fails f1 x ?

这里写图片描述

What is the value of d1?

这里写图片描述
这里写图片描述

答对的weight是Z1(1-ε1),答错的weight是Z1ε1,所有答错的weight都会被乘上d1,所有答对的weight都会被除上d1,对错相等列不等式。

Algorithm for AdaBoost

下接 part 2

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • 汉本1603 朱信强 1601305
    一品轩忠实拥护者阅读 554评论 0 4
  • 梦 巴士停靠在黄昏时分寂静的路口,一行四人,友人夫妇(已记不得样貌),我和海先,下了车,开始了异国的观光之旅。 这...
    xie辉阅读 250评论 0 1
  • 今天是每天五公里跑步的第七天,早上上班的途中计划着一天的安排,把跑步排在了第一位,觉得这是很“辛苦”的事儿,力争早...
    榕树家的故事阅读 413评论 8 2
  • 年龄是岁月的嘉奖 看透世界只是时间的问题 生死刹那间 所有一切变明白终了 我们与尘土无异 留下的 是名字和伟大的思...
    蓝天下永恒的流星阅读 144评论 0 0