机器学习性能评估指标汇总

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等，对以上提到的各个评估指标逐一点评，并力图表明：

指标分类

学习分类	性能指标
分类	Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、
回归	MAE、MSE

分类

混淆矩阵

1代表正类，0代表负类，Predicted代表预测，Actual代表实际。

		Predicted	Predicted	合计
		<u>1</u>	<u>0</u>
Actual	<u>1</u>	D: (TP) -> 2814	C: (FN) -> 36	D+C: Actual Positive
Actual	<u>0</u>	B: (FP) -> 235	A: (TN) -> 248	A+B: Actual Negative
合计		B+D: Predicted Positive	A+C: Predicted Negative

A: (True Negative) 将负类预测为负类数（正确预测负例），(TN | 真负,0->0)

B: (False Positive) 将负类预测为正类数，(FP | 假正, 0->1) → 误报

C: (False Negative) 将正类预测为负类数，(FN | 假负, 1->0) → 漏报

D: (True Positive) 将正类预测为正类数（正确预测正例），(TP | 真正, 1->1)

A+B: (Actual Negative) 实际上负例的数量

C+D: (Actual Positive) 实际上正例的数量

A+C: (Predicted Negative) 预测的负例数量

B+D: (Predicted Positive) 预测的正例数量

实际的数据中，客户有两种可能good AND bad，其模型预测同样有两种可能，预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能，第一种True Positive(1->1)：实际是Positive,预测成Positive，第二种True Negative(0->0)：实际是Negative，预测成Negative；如果不匹配（犯错）则出现两种可能，第一种False Negative(1->0)：实际是Positive，预测成Negative,第二种False Positive(0->1)：实际是Negative，预测成Positive。

准确(分类)率 VS. 误分类率:

准确(分类)率(accuracy) = 正确预测的正反例数 / 总数

ACC = (TP+TN) / (TP+TN+FP+FN)
= (A+D) / (A+B+C+D)

误分类率 = 错误预测的正反例数 / 总数

误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
= (B+C) / (A+B+C+D)

召回率 VS.精确率 → F1 Score

召回率(Recall) = 正确预测到的正例数 / 实际正例总数

Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
= D / (C+D)

精确率(Precision) = 正确预测到的正例数 / 预测正例总数

Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
= D /(B+D)

F1 Score

F1 Score为精准率和召回率的调和均值

2 / F1 = 1 / P + 1 / R
F1 Score = 2TP / (2TP + FP + FN)
准确率(accuracy)和精确率(precision)都高的情况下，F1 Score也会显得很高。

精确率是针对预测结果而言的，表示的是预测为正的样本中有多少是真正的正样本，预测为正就有两种可能，一种是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，即 P = TP / (TP+FP)

召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，即 R = TP / (TP+FN)

精确率：预测正例与预测结果的比值，召回率：预测正例与实际样本正例的比值。

ROC 曲线

维基百科定义

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

逻辑回归里面，对于正负例的界定，通常会设一个阈值，大于阈值的为正类，小于阈值为负类。如果我们减小这个阀值，更多的样本会被识别为正类。提高正类的识别率，但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象，此处引入ROC，ROC曲线可以用于评价一个分类器好坏。

ROC关注两个指标：

True Positive Rate: TPR = TP / (TP+FN) → 将正例分对的概率
Fales Positive Rate: FPR = FP / (FP+TN) → 将负例错分为正例的概率

在 ROC 空间中，每个点的横坐标是 FPR，纵坐标是 TPR，这也就描绘了分类器在 TP（真正率）和 FP（假正率）间的 trade-off。

ROC curve

ROC曲线中的四个点和一条线:

点(0,1)：即FPR=0, TPR=1，意味着FN＝0且FP＝0，将所有的样本都正确分类；
点(1,0)：即FPR=1，TPR=0，最差分类器，避开了所有正确答案；
点(0,0)：即FPR=TPR=0，FP＝TP＝0，分类器预测所有的样本都为负样本（negative）；
点(1,1)：分类器实际上预测所有的样本都为正样本。
总之：ROC曲线越接近左上角，该分类器的性能越好。

AUC

AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是 AUC 值。
总之：AUC值越大的分类器，正确率越高。

AUC = 1：绝对完美分类器，理想状态下，100%完美识别正负类，不管阈值怎么设定都能得出完美预测，绝大多数预测不存在完美分类器；
0.5<AUC<1：优于随机猜测。这个分类器（模型）妥善设定阈值的话，可能有预测价值；
AUC=0.5：跟随机猜测一样（例：随机丢N次硬币，正反出现的概率为50%），模型没有预测价值；
AUC<0.5：比随机猜测还差；但只要总是反预测而行，就优于随机猜测，因此不存在AUC<0.5的状况。

AUC

既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反）

AUC是ROC的积分（曲线下面积）

补充：Gini coefficient

gini系数通常被用来判断收入分配公平程度，具体请参阅wikipedia-基尼系数。

Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例，即gini coefficient = A面积 / (A面积+B面积) 。

用在评判分类模型的预测效力时，是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。

因此Gini coefficient与AUC可以互相转换：

gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2AUC-1*

回归

平均绝对误差

平均绝对误差MAE（Mean Absolute Error）又被称为 l1l1 范数损失（l1-norm loss）：

平均平方误差

平均平方误差 MSE（Mean Squared Error）又被称为 l2l2 范数损失（l2-norm loss）：

最后编辑于：2017.12.05 03:03:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,233评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,013评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,030评论 0赞 241
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,827评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,221评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,542评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,814评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,513评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,225评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,497评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,998评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,342评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,986评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,812评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,560评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,461评论 2赞 266