分类算法

  • 决策树

算法:
用一个属性划分数据集,可以产生分类更纯的子集。(不纯性度量)因此,不断划分,就能确定分类。
为了更有效地选择属性进行划分,以不纯性的增益or增益率来衡量。
~
特点:
a.以不纯性的增益or增益率来衡量,通常可以很好地选择属性,因此冗余属性通常不会对决策树的准确性造成影响。但不相关的属性很多,可能会被选中,影响决策树的准确性。
b.划分产生的决策边界是直线的,因此会限制了复杂关系了建模能力。可以采用“构造归纳”方法,提供一些由复杂模型构造的新属性。
c.分治划分策略,可能会产生子树重复的问题。
d.不断划分导致样本太小时,不能再进行有效的划分,“数据碎片”问题,可以当样本数小于某个特定的阈值停止分裂。
~
步骤:
一、对于特点a,b,需要对数据进行预处理,删除冗余属性,尝试构建新属性
二、对于特点c,d,需要在决策树归纳过程中处理,可以采用:
1.先剪枝:设定停止增加叶节点的条件:不纯性度量增益低于特定阈值等
2.后剪枝:用叶节点替换子树、用子树中最常使用的分支替换子树
三、模型外的措施:
1.多次重复建模,估计泛化误差:随机二次抽样、交叉验证、自助法...
2.比较多个模型进行选择:估计泛化误差的置信区间、比较两种分类法性能差异的显著性

  • 基于规则的分类器

算法:
在相同的分类中,寻找规则,使之有较优的覆盖率和准确率。

规则评估:似然比统计量、laplace、m统计量、FOIL信息增益
RIPPER算法:
1.按类的频率对类进行排序,从最不频繁的类开始提取规则
2.从一般到特殊的策略进行规则增长,使用FOIL信息增益进行评估
3.以最小描述长度原则作为终止条件

  • 最近邻分类器

消极学习算法(lazy learner)
算法:
当一个需要预测一个测试样例的时候,在训练集中找到相似的K个样例,以多数表决的方式进行预测。
也可以用,距离加权表决。
特点:
1.不需要建立模型,但分类测试样例的开销很大。
2.基于局部的信息进行预测,对噪声的非常敏感。
3.需要采用适当的邻近性度量和数据预处理,否则很可以做出错误的预测。

  • 贝叶斯分类器

在条件X(属性X=x1)成立的时,以某分类的频率,作为概率。
~
A.朴素贝叶斯分类器
P(Y|X) = P(X|Y)P(Y)/P(Y|X)
假设属性之间条件独立
P(Y|X) = P(Y)πP(Xi|Y)/P(X)
连续属性的条件概率:属性离散化、对于每一类,用高斯分布拟合
某些类属性样本较少,用m估计来估计条件概率,防止为0。
~
特征:
1.对孤立的噪声点,估计条件概率时这些点会被平均,朴素贝叶斯分类器是健壮的
2.对于无关属性,均匀分布不会影响条件概率
3.贝叶斯假设条件独立,相关属性会降低朴素贝叶斯分类器的

  • 人工神经网络ANN

核心思想:
1.感知器:根据感知器的输出与目标的差异来更新输入链的权值
2.多层神经网络,能够近似任何函数,处理冗余特征,本质上是在构造复杂的特征,需要防止过拟合。
3.对噪声十分敏感,使用确认集来确定模型的泛化误差
4.经常收敛到局部最小值,在权值更新公式中加上一个动量项。

  • 组合方法

核心思想:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,740评论 0 25
  • 3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为...
    chaaffff阅读 807评论 0 1
  • 0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将...
    chaaffff阅读 720评论 0 1
  • KNN:K-Nearest Neighbor algorithm 本文转载自:http://blog.csdn.n...
    五秋木阅读 3,676评论 0 1
  • 内蒙古别的不说,天永远是蓝的,星星耀眼当空,每当我望着这些星星,就会想,人心如同星星般简单纯粹耀眼该有多好。...
    雪源不懂悲伤阅读 149评论 0 1