机器学习笔记之信息熵、信息增益和决策树(ID3算法)

决策树算法:
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

算法原理:
决策树是一个简单的为输入值选择标签的流程图。这个流程图由检查特征值的决策节点和分配标签的子叶节点组成。为输入值选择标签,我们以流程图的初始决策节点(即根节点)开始。此节点包含一个条件,检查输入值的特征之一,基于该特征的值选择一个分支。沿着这个描述我们输入值的分支,我们到到了一个新的决策节点,有一个关于输入值的特征的新条件。我们继续沿着每个节点的条件选择的分支,直到到达叶节点,它为输入值提供了一个标签。


image.png

算法流程:
收集数据:即建立训练测试数据集。
准备数据:决策树构造算法只适用于标称型数据,因此数值型数据必须是离散化的。
分析数据:建立构造树,构造树完成后我们检查图形是否符合预期。
训练数据:完善构造树的数据结构。
测试数据:使用经验树计算。
使用算法:对实际数据进行预测。

ID3算法:
ID3算法(Iterative Dichotomiser 3,迭代二叉树3代)是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

为了实现ID3算法我们还需要了解这个高富帅提出的三个概念:信息、信息熵和信息增益。

ID3算法

并且由上面的公式我们可以看出其实信息熵就是信息的期望值,所以我们可知,信息熵越小,信息的纯度越高,也就是信息越少,在分类领域来讲就是里面包含的类别越少,所以我们可以得出,与初始信息熵的差越大分类效果越好。

下面我们来举个例子:
买苹果的时候,从外观上评判一个苹果甜不甜有两个依据:红不红 和 圆不圆 (原谅我浅薄的挑苹果经验吧。。。)

挑苹果

下面来算一下啊这5个苹果是不是好苹果的信息熵(只看结果值):


信息熵

下面给出python求信息熵的代码

def calcShannonEnt(dataSet):
numEntries = len(dataSet) #数据集大小
labelCounts = {}
for featVec in dataSet:
    currentLabel = featVec[-1]   #获取分类标签
    if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
    labelCounts[currentLabel] += 1  #每个类中数据个数统计
shannonEnt = 0.0
for key in labelCounts:  #信息熵计算
    prob = float(labelCounts[key])/numEntries
    shannonEnt -= prob * log(prob,2) 
return shannonEnt

我们来用程序求一下我们这个小例子的结果:
小例子的结果

接下来我们要寻找怎么分类比较好也就是决策树的叉,我们的例子中可以按两个方式分类,红不红和圆不圆。。到的按哪个分更好一点呢,这下就用到信息增益了:

def chooseBestFeatureToSplit(dataSet):
numFeatures = len(dataSet[0]) - 1  #计算分类依据的个数
baseEntropy = calcShannonEnt(dataSet)   #计算原始分类的信息熵
bestInfoGain = 0.0; bestFeature = -1
for i in range(numFeatures):    #对apple进行分类
    featList = [example[i] for example in dataSet]
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:  #计算该种分类的信息熵
        subDataSet = splitDataSet(dataSet, i, value)
        prob = len(subDataSet)/float(len(dataSet))
        newEntropy += prob * calcShannonEnt(subDataSet)     
    infoGain = baseEntropy - newEntropy  #计算当前分类的信息增益
    if (infoGain > bestInfoGain):  #比较那种分类的信息增益最大并返回
        bestInfoGain = infoGain
        bestFeature = i    
return bestFeature

按红不红分类的各项数据结果
红不红分类

计算方法为:总的信息熵 - 红不红的信息熵
红不红的信息增益

我们可以看出,这种分类的信息熵是0.5509775,它的信息增益是0.419973

如果按照圆不圆来分类:
圆不圆分类

我们可以看出,这种分类的信息熵是0.8,它的信息增益是0.17095
显然第一种分类的信息增益较大

我们来看一下啊两个划分的结果集:
两个划分的结果集

确实第一种方法划分的较好。

这样我们的决策树也就构建好了:
决策树
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容