【机器学习基础】随机森林算法

引入

我们回顾一下之前学习的两个算法，Bagging算法中，通过bootstrapping得到不一样的数据，通过这些数据送到一个基本算法之后，得到不同的g，最后对这些g取平均得到G；决策树算法中，通过递归方式建立子树，最终得到一棵完整的树。
这两种算法都有其鲜明的特点，决策树对于不同的数据相对会敏感一些，即其算法的variance很大，而Bagging的特点是通过投票和平均的方式来降低variance的效果。如果将这两种方法结合起来，就是该文要介绍的随机森林，random forest。

1. 随机森林算法

随机森立算法中的“随机”一词是指通过Bagging中的bootstrapping得到不同的数据，进而体现出来的随机性，而得到这笔数据用来送进CART算法训练得到一棵树，最后将所得的树做平均得到最终结果。

并行计算的可能性：随机森林算法从Bagging过程中可以分配到不同的计算机中进行计算，每台计算机可以独立学习一棵树，不同的树之间没有任何依赖关系。这使得Bagging过程很容易实现并行化。

2. 特征投影(Feature Projection)

在Bagging算法中，通过bootstrap在原来的数据中进行抽样，来得到不同的数据集，从而产生不同的g。
在随机森林的算法中，除了在数据集中做抽取之外，还可以在特征这一角度进行抽取。举个例子，如果事先我们有100个特征，现在我们可以抽取10个特征来训练一棵树，这样的方式我们也可以得到很不一样的树，其对于分类的标准显然也很不一样。
这种特征抽取的方式相当于在原来特征的100个维度中，随机选取10个维度，这等效于一个特征转换，这个过程中，从100维度到10个维度的转换中，相当于作了低维度的投影(Projection)。
得到的特征实际上是原始特征的随机子集，这使得生成模型过程中的效率也大大提高了。

3. 特征扩展(Feature Expansion)

上面介绍的特征投影等效于对原来的特征向量左乘一个投影矩阵Φ(x) = P·x，得到的特征抽样是随机选取的原始特征。现在我们可以尝试更加复杂、有能力的投影方式。
更加有能力的特征投影就是不再单一选取单一维度的特征，而是将多个维度的特征进行组合，得到新的一维的特征，这称为特征扩展。

4. Out-Of-Bag Estimate

在bootstrapping的过程中，有些数据可能没有被选择，这些数据称为out-of-bag(OOB) examples，对于训练每一个gt，其中用“”标注的数据即是gt的OOB examples。

下面的公式是经过N'次选择之后没有被选择的数据，大约有(1/e)N多的数据没有被选择到，即大约有三分之一的数据没有被选择，这些数据由于没有用来训练模型，故可以用于模型的验证。

在随机森林的算法中，我们不太需要使用OOB数据来验证每个g的性能，因为即使g的能力很差，最终进行平均得到的G的性能也可能会很好。但这些OOB数据可以用来验证G的性能。

上图中，(xN,yN)这一个数据由于没有用于g2，g3，gT的训练数据，故可以用来作为它们的验证数据。所以(xN,yN)可以作为G-的验证数据，其中G-(x)=average(g2, g3, gT)。
下面给出了OOB Error（Eoob）的公式，G的OOB Error的估算是通过不同的G-来平均得到的，所以，在bootstrap的过程就可以自己去验证模型的性能好坏，不需要单独划分一块数据作为专门的验证数据。

下面是随机森林算法中使用OOB Error进行验证的方法：

5. 特征选择(Feature Selection)

接下来要介绍的特征选择，其目的主要是使用程序来自动选择需要的特征，而将冗余的、不相关的特征忽略掉。
优点：特征选择由于舍去了不必要的特征，使得模型复杂度大大降低，可以简化假设，缩短预测时间；同时，舍去了特征的噪声，可以提高模型的泛化能力，使得模型不容易对噪声过拟合；最后，由于选择出来的特征具有很好的物理意义，其结果可以作很好的解释。
缺点：特征的选择计算量大；如果选出来的特征是噪声的话，可能会导致过拟合；如果选择了噪声特征，得到的解释可能只是数据之中的关联性，而非因果性。

5.1 Permutation Test

上面说的特征选择是如何选择特征的组合方式的问题，为了解决这个问题，我们暂不考虑特征之间的相关关系，而是为每个特征打一个分数，表示特征的重要性，然后按照重要性进行排序，选择最重要的前K个特征作为选取出来的特征。
由于随机森林算法是一个非线性的模型，我们不能单纯以线性模型中的权重作为衡量特征重要性的标准，所以下面要介绍的称为Permutation Test的方法来判别特征的权重。

Permutation Test的方法是通过将第i个维度特征的所有数据重新的随机调整位置，然后比较一下原始数据和调整之后的数据表现的差距，来评价这个维度的特征是有多么重要。

5.2 在Out-Of-Bag Estimate过程中做Permutation Test

在随机森林中可以用OOB代替验证的过程，为了简化Permutation Test带来的重新进行训练的代价，我们在使用OOB Example（bootstrap过程中没有选取的数据）进行验证的过程中做一些修改，即在验证的时候去进行Permutation Test，而非训练时进行。
在求Eoob(G)时，我们通过G-(xn)来计算，我们在这里将x(n)修改成x(n,i)，就可以不用对G进行修改了。

在实际应用中，面对非线性的问题时，可以通过随机森林的方法来进行初步的特征选择。

参考资料

机器学习技法课程，林轩田，台湾大学

转载请注明作者Jason Ding及其出处
GitCafe博客主页(http://jasonding1354.gitcafe.io/)
Github博客主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

最后编辑于：2017.11.27 03:11:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,757评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,478评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,540评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,593评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,903评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,329评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,659评论 2赞 309
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,383评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,055评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,337评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,864评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,227评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,820评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 25,999评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,750评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,365评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,260评论 2赞 258