机器学习-周志华 学习笔记(模型评估与选择)

机器学习的目的

        最后的最后,我们会用模型对新的数据进行预测,希望得到好的结果。因此我们要得到泛化能力好的模型,尽量不要过拟合,这是训练误差和泛化误差的平衡。训练误差太大,说明模型学习能力不够,特征准备的不充分,欠拟合。训练误差小,泛化误差大,说明模型学习能力太强,学到了很多不容易学到的规律,就是过拟合。

 要追求平衡,首先要学会如何评估。

首先,测试集是来近似模型的泛化能力。验证集是用来决定训练的时候何时停止的,也就是来进行模型选择和调参。要去近似,首先要在样本上保证测试集的分布和样本真实的分布近似。训练集和测试集最好互斥。如何既保证分布独立且相似,又保证拥有最接近现实的数据,也就是尽可能多的数据,靠采样。

        D是我们有的所有m个样本。

下面是采样的方法

        1. 把D按比例分为互斥的两份,需保证两者分布的一致性。因为不同的划分方式,会导致结果不同。所以单次划分的结果不够稳定。一般需要若干次随机划分,重复进行实验。比例大概在2/3~4/5。

          2. k折交叉验证:把D分为大小相似的k份,保证数据一致性。每次用k-1份做训练,1份做测试。经过k次实验,返回k次实验的均值。则模型取决于k的取值,一般为10。也可进行p次k折交叉验证。

        3. 自助法:想要训练样本尽可能多,又不想计算复杂度太高。在数据集较小,难以划分时很有效。但是会改变分布,引入误差。

        D' :训练集。有放回的随机从D中挑选样本,重复m次。m取极限,D中约有36.8%的数据不会出现。

        D\D' :测试集。

用哪些指标评价拟合程度:

训练集,测试集就4个数。评价指标都是这四个数的各种组合。T:true F:false P:positive N:negitive

四个数:TP,TN,FP,FN。     其中TP +TN + FP + FN = m。即样本个数。

错误率 (error rate): 分类错误比例。 (FP + FN)/m 

精度(accuracy):  (TP+TN)/m

查准率(precision): TP/(TP+FP)  被认定为正例的里面,判断正确的比例。

查全率(recall):   TP/(TP+FN)    真实正例里,被判断出为正例的比例。

查准率和查全率相互矛盾。如:如果想要准一些,可以取的阈值取的严格一些,取的人少一些,只挑很有把握的,自然会漏掉一些。

由两者可以得到P-R曲线,如果a完全包裹b,则a模型优于b。如果有交叉,则比较P-R曲线下面积。

F1度量 是P和R的调和平均数。其一般形式为加权调和平均,可以按照自己对业务的理解去定义,去作为优化的目标。

ROC曲线: 表达了模型的泛化能力。根据模型的排序结果,一个个划分正负,每次得出两个值。横纵是:真正例率TP/(TP+FN), 假正例率FP/(TN+FP)。为啥在ROC曲线画一个y=x呢,那表示随机猜测的ROC。   真正例率  1/(1+FN/TP)      假正例率    1/(1+TN/FP)

自定义代价敏感函数:不同的业务场景,对判断错误的容忍度不同。因此可以权衡不同类型错误造成的损失,计算一个由几个损失合成的损失函数。错误就是cost01 cost10 。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容