十分钟了解决策树

鸢尾花数据集上描绘决策树的决策面图

决策树是一种非参数的监督学习方法,可用于分类和回归的应用中。旨在通过数据学习出简单的决策规则来创建模型,进而预测和判定目标变量的结果。

** 决策树的工作原理 **

顾名思义,决策树以「树」这样的数据结构来进行分类或预测决策,在分类应用中,树中的每个节点构成类标签,叶子节点就是最终的分类类标号;树中的分支由决策规则组成。

一旦决策树构造好了,对目标变量进行分类时,从树的根节点开始,依次经过不同的规则分支,达到叶子节点,该叶子节点的类标号即为该目标变量的分类结果。

** 如何构造决策树 **

构造决策树的步骤为:
1、开始的时候,所有记录当作一个节点;
2、选择一个属性测试条件用于分割节点,往往需要遍历每一种分割方式,以找到最好的分割点;
3、将节点分割,作为其子节点,如分割成N1和N2;
4、对子节点,如N1和N2,继续执行第2、3步,直到节点满足停止分割的条件

从步骤中,我们可以看出,整个算法必须解决「如何停止分割」和「如何选择分割」两个关键问题。

为此,需要引入不纯度来度量每个节点,即度量节点中的记录够不够纯净,是否都是同一类别的记录。不纯度的计算方式包括:
1、熵, Entropy = - sum( p(i) * log(p(i)) )
2、Gini不纯度,Gini = 1 - sum( p(i) * p(i) )
3、错误率,Error = 1 - max(p(i))
注:p(i)为节点中第i种类别记录的占比。

一种停止分割的方法是,当节点的不纯度满足一定条件时,则不再对该节点继续分割。而属性测试条件的选择也可用不纯度来衡量,当父节点和子节点不纯度差别越大时,说明分割得越好。

若想了解具体的实现,可参考决策树的scikit-learn源码

** 决策树的优缺点 **

优点
  • 简单易懂,可解释性强,且构造的树能够可视化。
  • 只需要较少的数据准备,而其他一些技术常常需要做数据标准化、哑变量的创建等等数据准备工作。
  • 使用成本低,一旦创建了树,对目标变量的决策所需要消耗的时间很少。
  • 能够同时处理数值和分类变量,其他的一些技术往往只能处理特定数据类型的变量。
  • 能处理多输出问题。
  • 可使用统计检验来验证模型,从而可保证模型的可靠性。
缺点
  • 容易出现过拟合,特别是在构造了过于复杂的树的情况下。
  • 不够稳定,哪怕是训练数据出现了一点小的变化,最后生成的树也可能千差万别。
  • 训练寻找一个最优的决策树是一个NP完全问题,因此决策树的构造算法也多使用贪心算法,得到的往往是一个局部最优结果。
  • 对于异或、多路复用等问题,决策树表现一般,因为决策树很难去表达它们。
剪枝

当构造的决策树节点过多,显得过于复杂、过于「茂盛」时,就容易出现过拟合的现象,此时需要对树进行剪枝。剪枝方法包括前置剪枝和后置剪枝,也叫先剪枝和后剪枝。

前置剪枝,即在构造树的时候就进行剪枝,这样在产生完全拟合训练数据之前就停止决策树的生长了。为做到这一点,通常采用更具有限制性的分割结束条件,如控制节点数,设置较高的分割阈值等。

后置剪枝,初始决策树按照最大规模生长,完全拟合训练数据,然后在进行剪枝步骤,如用新的叶子节点替换子树,或用子树中最常见的分支代替子树。

** 示例 **

下面示例使用决策树对鸢尾花进行分类计算,scikit-learn自带的鸢尾花数据集中有4个属性,示例中将每两两属性为一组,使用决策树从训练数据中学习得到对应的分类阈值规则,然后组成分类的决策边界。

示例绘制了决策树分类结果的决策面,该示例来源于scikit-learn,详细代码如下:

# -*- coding: utf-8 -*-

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# 参数
n_classes = 3
plot_colors = "bry"
plot_step = 0.02

# 鸢尾花数据加载
iris = load_iris()

# 鸢尾花数据有4个属性,取两两属性为一组,遍历
for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],
                                [1, 2], [1, 3], [2, 3]]):
    # 每次取两个属性的数据
    X = iris.data[:, pair]
    y = iris.target

    # 训练分类器
    clf = DecisionTreeClassifier().fit(X, y)

    # 绘制决策边界,共2行3列6个子图,每组属性画一个图
    plt.subplot(2, 3, pairidx + 1)

    # 生成坐标矩阵数据
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))

    # 使用分类器计算每个坐标点的分类,并绘制分类结果矩阵的等高线
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

    # 使用属性特征名作为横纵坐标名
    plt.xlabel(iris.feature_names[pair[0]])
    plt.ylabel(iris.feature_names[pair[1]])
    plt.axis("tight")

    # 绘制训练数据点,并用不同颜色区分
    for i, color in zip(range(n_classes), plot_colors):
        idx = np.where(y == i)
        plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
                    cmap=plt.cm.Paired)

    plt.axis("tight")

plt.suptitle("Decision surface of a decision tree using paired features")
plt.legend()
plt.show()

更多有关决策树的内容见这里

(全文完)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容