03 决策树 - 量化纯度、信息增益度、停止条件、评估

本章将深入探讨上一章留下的知识点:\color{red}{纯度}
阅读本章前,请先充分认识到在决策树中的作用和意义。
请参考:《02 决策树 - 概念

一、决策树量化纯度

决策树的构建是基于样本概率和纯度来进行的,判断数据集是否“纯”可以通过三个公式进行判断:Gini系数、熵(Entropy)、错误率。

三个公式的值越大,表示数据越不纯。值越小,表示数据越纯。

例:偿还贷款的能力。
P(1) = 7/10 = 0.7; 可以偿还的概率;
P(2) = 3/10 = 0.3; 无法偿还的概率;

Gini = 1-\sum_{i=1}^nP(i)^2 =1- (0.7^2+0.3^2) = 0.42
H(Entropy) = - \sum_{i=1}^np(i)log_2(p(i)) = -(0.7log_20.7+0.3log_20.3)
Error = 1 - max {p(i)} (i =1 ~ n) = 1 - 0.7 = 0.3

如果只有两种分类情况,随着两种情况发生的概率的改变,最后根据三种公式的计算所得:


量化纯度值

可以发现,三种公式的效果差不多,一般情况使用熵公式。

二、信息增益度

当计算出各个特征属性的量化纯度值后,使用信息增益度来选择出当前数据集的分割特征属性。如果信息增益度值越大,表示在该特征属性上会损失的纯度越大,那么该属性越应该在决策树的上层。计算公式如下:

Gain为A在特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。

思考:
现在有两个事件A和D,下图黑色部分是特征A给定条件下D的经验条件熵 H(D|A)。
显然,Gain= 蓝色区域 = H(D) - H(D|A)

Gain-信息增益度

较为理想的分割结果如下,红色方框里是分割后系统剩余的不纯度,这种分割情况下不纯度小了很多:


思考完后,请再次理解以下这句话的含义:
如果信息增益度值越大,表示在该特征属性上会损失的纯度越大,那么该属性越应该在决策树的上层。

三、决策树算法的停止条件

决策树构建过程是一个递归的过程,所以必须给定停止条件。
1、大于决策树最大深度。 max_depth

2、小于内部节点再划分所需最小样本数。min_samples_split
设min_samples_split=3,一个叶子节点a中剩余的样本数位5,另一个叶子节点b中剩余样本数量为2。a可以继续划分,b停止划分。

3、小于叶节点最少样本数。min_samples_leaf
设min_samples_leaf=3,如果划分出的新叶子节点剩余样本数小于3,那么撤销这步划分。

4、大于最大叶节点数。max_leaf_nodes
设max_leaf_nodes=5,当划分出超过五个叶子节点时,撤销这步划分操作。

5、小于节点划分不纯度。min_impurity_split
当Gini系数、熵(Entropy)、错误率,小于 min_impurity_split时,不再生成新的叶子节点。一般不会设置这个参数,依靠上面4个停止条件即可。

四、决策树算法效果评估

决策树算法效果评估和一般的分类算法一样,采用混淆矩阵进行计算准确率、召回率、精确率等指标。混淆矩阵参考:《05 模型训练和测试


也可以采用叶子节点的纯度值综合来评估算法的效果,值越小,效果越好。

思考:
在决策树中的每一个节点都能够表示一个系统,都能够计算其信息熵(系统稳定程度)。

如果将这些信息熵单纯的求和结果会不太理想。比如有100个节点,前99个节点中有很多数据,但是第100个节点只有1条数据。按理说,这第100个节点对于整个系统的不稳定性起了非常小的作用。如果还有一个节点,这个节点里有大量的数据,且结果都为分类0,那么可以认为这个节点的划分比较成功,在计算整个决策树总损失的算法中,该节点要占用一个较大的比例。

所以:不能将所有叶子节点的信息熵单纯的求和,还得乘上一个权重值,权重值=当前叶子节点的样本个数/总的样本个数。

总决策树的损失程度
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,754评论 0 25
  • 1、模型原理 (一)原理 1、原理:引入信息熵(不确定程度)的概念,通过计算各属性下的信息增益程度(信息增益越大,...
    Python_Franklin阅读 12,205评论 0 17
  • 1 前言 在了解树模型之前,自然想到树模型和线性模型,他们有什么区别呢? 树形模型是一个一个特征进行处理,之前线性...
    高永峰_GYF阅读 1,309评论 0 1
  • 孤芳自赏 欲壑难填 念兹在兹 niàn zī zài zī 推波助澜 tuī bō zhù lán 明哲保身 mí...
    三世养成阅读 422评论 0 0
  • 读一篇《天国春秋》版本修改的比较论文,挺好。作者在其人文本、定本、初刊本、初版本的往复变迁中,发现几百处不同。人文...
    Lnrsyao阅读 136评论 0 0