机器学习之拟合、过拟合

机器学习的基本问题是利用模型对数据进行拟合,学习的目的并非是对有限的训练集进行正确的预测,而是对未曾出现在训练集中的样本能够进行正确预测。

模型对训练数据的预测误差称为经验误差,对测试数据的预测误差称为泛化误差。模型对训练集之外的数据进行预测的能力称为模型的泛化能力,最求这种泛化能力是机器学习的目标。

过拟合和欠拟合是导致模型泛化能力不高的两种常见原因,都是模型学习能力与数据复杂度之间失配的结果。

”欠拟合“常在模型学习能力较弱,而数据复杂度较高的情况下出现。由于模型的学习能力不足,无法学习到数据集中的“一般规律”,因而导致模型的泛化能力较弱。

与之相反,”过拟合“常在模型学习能力较强,而数据复杂度较弱的情况下出现。此时由于模型的学习能力太强,以至于将训练集中单个样本自身的特点都能捕捉到,并将其认为是“一般规律”,这种情况同样会导致模型的泛化能力下降。

过拟合与欠拟合的区别在于,欠拟合在训练集和测试集上的性能都比较差,而过拟合的模型往往能够较好的学习训练集数据的性质,而在测试集上的性能较差。在神经网络训练的过程中,欠拟合主要表现为输出结果的高偏差,而过拟合主要表现为输出结果的高方差。

过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了,通俗点就是:模型在训练集中测试的准确度远远高于在测试集中的准确度。
过拟合问题通常发生在变量特征过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于0或者就为0,使其拟合只局限于训练样本中,无法很好预测其他新的样本。
欠拟合:在训练数据和未知数据上表现都很差

解决过拟合问题的方法主要有:
  1. 减少特征数量,通过人工或者算法选择哪些特征有用保留,哪些特征没用删除,但会丢失信息。
  2. 正则化,保留特征,但减少特征对应参数的大小,让每个特征都对预测产生一点影响。
解决欠拟合问题的方法主要有:

1.减少正则化:正则化可以避免过拟合的发生,因此在出现过拟合的情况时,可以通过减少正则化的损失函数来防止过拟合的发生。

2.添加数据量和特征维度:由于模型可用于学习的数据规模可能不足够大,导致模型训练的不够充分,模型复杂度不够。还有如果统计的数据信息中,各个维度数量收集的不够或者维度信息中大部分不具有区分样本的特质。面对这种问题主要方法是收集更多的特质维度,或者增加采样信息等方式来扩充数据。

3.增加算法模型的复杂度:例如很多训练样本不是线性可分的,如果单用线性方法来拟合可能无法达到一个理想的拟合方法,这时候引入非线性方法,如核函数等方法或者更复杂的深度学习等方法来增加模型的复杂度

偏差与方差

偏差又称表现误差,是指个别测定值与测定的平均值之差,它可以用来衡量测定结果的精度高低。在统计学中,偏差可以用于两个不同的改良,即有偏采样和有偏估计。一个有偏采样是对总样本集非平等采样,而一个有偏估计则是指高估或低估要估计的量。方差在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

在机器学习中,偏差描述的是根据样本拟合出的模型输出结果与真实结果的差距,损失函数就是依据模型偏差的大小进行反向传播的。降低偏差,就需要复杂化模型,增加模型参数,但容易造成过拟合。方差描述的是样本上训练出的模型在测试集上的表现,降低方差,继续要简化模型,减少模型的参数,但容易造成欠拟合。根本原因是,我们总是希望用有限的训练样本去估计无限的真实数据。假定我们可以获得所有可能的数据集合,并在这个数据集上将损失函数最小化,则这样的模型称之为“真实模型”。但实际应用中,并不能获得且训练所有可能的数据,所以真实模型一定存在,但无法获得。

解决方法

过拟合和欠拟合是所有机器学习算法都要考虑的问题,其中欠拟合的情况比较容易克服, 常见解决方法有:

增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间
添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强
减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数
使用非线性模型,比如核SVM 、决策树、深度学习等模型
调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力
容量低的模型可能很难拟合训练集;使用集成学习方法,如Bagging ,将多个弱学习器Bagging

泛化能力

泛化能力是指机器学习算法对新样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的训练集之外的数据,我们希望经过训练的模型能够给出合适的输出,这种能力称为泛化能力。我们期望经过训练集训练的模型具有较强的泛化能力,也就是对输入的测试数据能够给出合理的响应。

原文链接:https://blog.csdn.net/qq_39514033/article/details/88794503

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,585评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,923评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,314评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,346评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,718评论 3 291
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,828评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,020评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,758评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,486评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,722评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,196评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,546评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,211评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,132评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,916评论 0 200
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,904评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,758评论 2 274