机器学习算法需要注意的一些问题

原文：http://blog.csdn.net/xmu_jupiter/article/details/47108523

对于机器学习的实际运用，光停留在知道了解的层面还不够，我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。

1 数据不平衡问题

这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧，我们需要正例和负例样本的标注。如果我们拿到的训练数据正例很少负例很多，那么直接拿来做分类肯定是不行的。通常需要做以下方案处理：

1.1 数据集角度

通过调整数据集中正负样本的比例来解决数据不平衡，方法有：

正样本本来就少，怎么增加呢？方法是直接复制已有的正样本丢进训练集。这样可以稍微缓解正样本缺失的困境，但是容易带来一个问题，就是过拟合的潜在危险。因为这样粗暴的引入正样本并没有增加数据集的样本多样性。如何设计复制哪些正样本有一些技巧，比如选择有特定意义的代表性的那些。

1.1.2 减少负样本的数量

首先这是一个通用的合理的方法，但是负样本的减少必然导致数据多样性的损失。有一种方法可以缓解这个问题，那就是类似于随机森林方法，每次正样本数量不变，随机选择等量的不同的负样本进行模型训练，反复几次，训练多个模型，最后所有的模型投票决定最终的分类结果。

1.2 损失函数的角度

可以重新修改模型训练的损失函数，使得错分正样本的损失变大，错分负样本的损失变小。这样训练出来的模型就会对正负样本有一个合理的判断。

更多于此话题相关内容请移步：

分类中数据不平衡问题的解决经验

机器学习中的数据不平衡问题

2 异常值处理问题

说到异常值，首先得说一下数据量的问题。异常值不是缺失值，更不是错误值，同样是真实情况的表现，之所以觉得一个数据异常，是因为我们能够用到的数据量不够大，无法准确地代表整个此类数据的分布。如果把异常值放在海量数据的大背景下，那么这个异常值也就不那么异常了。

下载摘自某大牛博客一段话：

异常值并非错误值，而同样是真实情况的表现，我们之所以认为异常，只是因为我们的数据量不足够大而已。但是从实际的工业界来看，考虑到实际的计算能力以及效果，大多数公司都会对大数据做“去噪”，那么在去噪的过程中去除的不仅仅是噪音，也包括“异常点”，而这些“异常点”，恰恰把大数据的广覆盖度给降低了，于是利用大数据反而比小数据更容易产生趋同的现象。尤其对于推荐系统来说，这些“异常点”的观察其实才是“个性化”的极致。

既然说到大数据，同样是这位大牛的一段话：

【异常值并非错误值，而同样是真实情况的表现，我们之所以认为异常，只是因为我们的数据量不足够大而已。但是从实际的工业界来看，考虑到实际的计算能力以及效果，大多数公司都会对大数据做“去噪”，那么在去噪的过程中去除的不仅仅是噪音，也包括“异常点”，而这些“异常点”，恰恰把大数据的广覆盖度给降低了，于是利用大数据反而比小数据更容易产生趋同的现象。尤其对于推荐系统来说，这些“异常点”的观察其实才是“个性化”的极致。】

既然说到大数据，同样是这位大牛的一段话：

【说得学术一些，我们不妨认为大数据是频率学派对于贝叶斯学派一次强有力的逆袭。那么既然说到这个份上了，我们不妨思考一下，我们是不是有希望在回归贝叶斯学派，利用先验信息+小数据完成对大数据的反击呢？】

某些机器学习算法对异常值很敏感，比如：K-means聚类，AdaBoost。使用此类算法必须处理异常值。

某些算法拥有对异常值不敏感的特性，比如：KNN，随机森林。

如何处理异常值？最简单的方法就是直接丢掉。其它方法我后面会继续研究。

3 过拟合问题

过拟合可要命了，好不容易训练一个模型，来一些测试数据，分类结果非常的差。过拟合产生的原因：

1.训练数据太少

2.模型太复杂

3.训练数据中存在噪声点（就算训练数据足够多）

几乎所有的机器学习算法都会容易遇到过拟合的问题。所以先说一些解决过拟合的通用办法。当然，首先得保证训练数据不要太少。

3.1 正则化

正则化就是在模型的优化目标上再加入一个惩罚因子。这样模型的优化策略就从经验风险最小化变为结构风险最小化。

1.线性回归正则化就是岭回归和lasso回归，分别对应L2，L1罚项。

2.决策树正则化就是剪枝，通常把子节点个数作为罚项。

3.2 交叉验证

在数据量足够的情况下，可以采用交叉验证的方式避免过拟合，甚至可以在正则化之后再做一次交叉验证。

其它详细研究请点击：

机器学习过度拟合问题一些原因

4 特征工程问题

有句话必须得放在前面：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。

4.1 什么是特征工程

首先拽一段英文定义：

Feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive models, resulting in improved model accuracy on unseen data.

in a word, feature engineering is manually designing what the input x’s should be.

4.2 为什么要进行特征降维和特征选择

主要是出于如下考虑：

1. 特征维数越高，模型越容易过拟合，此时更复杂的模型就不好用。

2. 相互独立的特征维数越高，在模型不变的情况下，在测试集上达到相同的效果表现所需要的训练样本的数目就越大。

3. 特征数量增加带来的训练、测试以及存储的开销都会增大。

4. 在某些模型中，例如基于距离计算的模型KMeans，KNN等模型，在进行距离计算时，维度过高会影响精度和性能。

5. 可视化分析的需要。在低维的情况下，例如二维，三维，我们可以把数据绘制出来，可视化地看到数据。当维度增高时，就难以绘制出来了。

在机器学习中，有一个非常经典的维度灾难的概念。用来描述当空间维度增加时，分析和组织高维空间，因体积指数增加而遇到各种问题场景。例如，100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样；而当维度增加到10后，如果以相邻点距离不超过0.01小方格采样单位超一单位超正方体，则需要10^20 个采样点。

正是由于高维特征有如上描述的各种各样的问题，所以我们需要进行特征降维和特征选择等工作。

4.3 特征提取

对于高维特征（成百上千维），比如图像，文本，声音的特征，特征的每一维没有显著意义的，最好要对特征先进行降维，也就是从初始数据中提取有用的信息。通过降维，将高维空间中的数据集映射到低维空间数据，同时尽可能少地丢失信息，或者降维后的数据点尽可能地容易被区分。这样，可以提取出显著特征，避免维度灾难，还可以避免特征之间的线性相关性。

特征降维常用的算法有PCA，LDA等。

PCA算法通过协方差矩阵的特征值分解能够得到数据的主成分，以二维特征为例，两个特征之间可能存在线性关系（例如运动的时速和秒速度），这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系，并去除。

LDA算法考虑label，降维后的数据点尽可能地容易被区分。

4.4 特征选择

通常遇到的情况是：特征不够用。。在这种情况下，我们就要在设计算法之前，好好地挖掘一下特征。对于逻辑斯蒂回归和决策树，每一维的特征是有确切意义的。我们就要从各个方面，抽取与目标相关的所有可用信息作为特征。这个过程可能会比较痛苦。。

然后，是不是特征越多越好？其实也不是。盗一张图过来如下：

可以发现，刚开始模型的准确率随着特征数量的增加而增加，当增加到一定程度便趋于稳定了。如果还要强行加入如此多的特征，反而画蛇添足，容易过拟合。然后，如果出现特征过多出现过拟合的情况，就要适当地进行参数缩减。对于逻辑斯蒂回归，某一维特征对应的参数如果接近为零，说明这个特征影响不大，就可以去掉。因此，我们的特征选择过程一般如下：

1.选取尽可能多的特征，必要时先进行降维

2.对特征进行选择，保留最具有代表性的特征

这个过程的进行要同时观察模型准确率的变化。

最后，特征选择有哪些算法呢？

- 过滤方法：将所有特征进行打分评价，选择最有效的一些特征。比如：卡法检验，信息增益，相关系数打分。

- 包装方法：将特征组合的选择看做是一个在特征空间中的搜索问题。比如：随机爬山法，启发式的搜索方法等。

- 嵌入方法：将特征选择的过程嵌入到模型训练的过程中，其实也就是正则化的方法。比如lasso回归，岭回归，弹性网络（Elastic Net）等。

具体其它细节，以后补充。

推荐一篇美团网的技术报告：机器学习中的数据清洗与特征处理综述

还有一篇参考:机器学习中的特征选择问题

最后一篇特征选择的好文：A introduction on feature seclection

机器学习算法需要注意的一些问题（二）

训练样本大小选取的问题

模型学习的准确度与数据样本大小有关，那么如何展示更多的样本与更好的准确度之间的关系呢？

我们可以通过不断增加训练数据，直到模型准确度趋于稳定。这个过程能够很好让你了解，你的系统对样本大小及相应调整有多敏感。

所以，训练样本首先不能太少，太少的数据不能代表数据的整体分布情况，而且容易过拟合。数据当然也不是越多越好，数据多到一定程度效果就不明显了。不过，这里假设数据是均匀分布增加的。

然而这里有另一种声音：

【算法使用的数据越多，它的精度会更加准确，所以如果可能要尽量避免抽样。机器学习理论在预测误差上有着非常直观的描述。简而言之，在机器学习模型和最优预测（在理论上达到最佳可能的误差）之间的预测误差的差距可以被分解为三个部分：

由于没有找到正确函数形式的模型的误差

由于没有找到最佳参数的模型的误差

由于没用使用足够数据的模型的误差

如果训练集有限，它可能无法支撑解决这个问题所需的模型复杂性。统计学的基本规律告诉我们，如果我们可以的话，应该利用所有的数据而不是抽样。】

其实当然数据越多越好，但是更多的数据意味着获取的难度以及处理的复杂度等。并且当数据多到一定程度后区别就不那么明显了。所以我们还是要根据自己情况科学地使用一定数量的数据。

参考资料：

机器学习项目中常见的误区

开发者成功使用机器学习的十大诀窍

选择什么模型算法？

很多像我一样的机器学习新手在遇到问题的时候，都会对用什么样的模型解决问题感到困惑。除了基本的有监督无监督，分类还是回归，二分类多分类等等基本的选择标准，貌似其他的都差不多，通常的做法就是每个模型都试一试，看看哪个效果好就用哪个。。显然这么做的不够的。

其实，选择什么算法最好，关键不在于算法，而在于具体要解决的问题，以及问题所具有的数据和特征。下面结合自己的经验和收集的资料，给出几点选择算法的tips。

1 特征角度

特征层次级别

就像古代把人分为三六九等，特征也有层次之分。我们暂且粗略地分为高级别特征和低级别特征，有的时候高级别的特征又叫组合特征。总体上，低级别特征比较有针对性，单个特征覆盖面小（含有这个特征的数据不多），特征数量（维度）很大。高级别特征比较泛化，单个特征覆盖面大（含有这个特征的数据很多），特征数量（维度）不大。下图展示了什么是高级低级特征：

特征级别与线性模型和非线性模型

特征的低级和高级带来模型选择上的线性模型和非线性模型的考量：

非线性模型的特征：

1）可以主要使用High Level特征，因为计算复杂度大，所以特征维度不宜太高；

2）通过High Level非线性映射可以比较好地拟合目标。

线性模型的特征：

1）特征体系要尽可能全面，High Level和Low Level都要有；

2）可以将High Level转换Low Level，以提升模型的拟合能力。

线性模型有：逻辑斯蒂回归，线性SVM等；

非线性模型有：决策树，随机森林，GBDT等。

例子：逻辑斯蒂回归和决策树用哪个好？

只用高级或者低级特征

那平常我们所纠结的逻辑斯蒂回归和决策树用哪个好为例，决策树是一种非线性模型，因此如果是高级别特征的话我们就选择决策树；逻辑斯蒂回归是一种线性模型，因此如果是低级别特征的话我们就选择逻辑斯蒂回归。

然而，在我们是具体应用中，高级特征通常难以获得，或者获得的时间和成本很高，然而低级特征却很容易拿到。所以，在解决问题的初始阶段，我们最好先广泛收集可以用的低级别特征，来一个逻辑斯蒂回归，作为框架的基线系统。

线性模型对非线性关系缺乏准确刻画，高级特征刚好可以加入模型的非线性表达，增强模型的表达能力。另外，使用低级特征可以认为是对全局进行建模，而高级特征更加精细，是个性化建模，这就是为什么

1.决策树深入数据细部，但同时失去了对全局的把握，因为决策树一般使用高级特征；

2.逻辑回归始终着眼整个数据的拟合，所以对全局把握较好。但无法兼顾局部数据，或者说缺乏探查局部结构的内在机制，因为逻辑回归一般使用低级特征；

3.长尾样本的预测值主要受High Level特征影响，因为长尾样本是个性化样本；

3.高频样本的预测值主要受Low Level特征影响，因为高频样本是大众化的样本。

高级特征和低级特征都有

当我们有一些高级特征的时候，就把高级特征和低级特征共同加入到逻辑回归中进行训练，这样训练出来的模型兼顾了全局化与个性化，会使模型预测的准确率有所提高。具体到逻辑回归和决策树的使用上，我们可以充分利用两者之间的优缺点进行互补。主要思路是利用决策树对局部数据结构优越的把握能力增加逻辑回归的效力。在具体做法上有几种，一种是从决策树分析中找出数据局部结构，作为在逻辑回归中构建依变量（interaction)的依据。另一种是在需要对预测因子进行离散化处理时，利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量，和其他协变量一起代入回归模型，又称为“嫁接式模型”。从理论上讲，嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构，而协变量可以拾补被决策树遗漏的数据整体结构。

本部分参考文献：

在广告LR模型中，为什么要做特征组合？

逻辑回归与决策树在分类上的一些区别

2 要解决的问题本身

有时候我们要解决的问题可以用单个复杂的模型解决，也可以用多个简单的模型分别解决各个子问题，再基于各个单模型进行融合解决总问题。融合的方式可以是简单的线性融合，也可以是更加复杂的融合。

不同模型有不同优缺点，具体如下：

选择哪种模式？

1）问题可预估的难度，难度大，则考虑用多模型；

2）问题本身的重要性，问题很重要，则考虑用多模型；

3）多个模型的关系是否明确，关系明确，则可以用多模型。

这一部分主要抄袭美团技术报告：

实例详解机器学习如何解决问题

3 模型组合

最近模型组合的算法越来越流行，当单个分类器的性能不足以解决实际问题的时候，可以考虑使用模型组合的方法，也就是bagging和boosting的方法。

关于这部分，只知道GBDT在工业界很火，当有了一定了解和实战经验后，再来补充。

最后编辑于：2017.12.05 06:32:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

机器学习算法需要注意的一些问题

推荐阅读更多精彩内容