机器学习性能评估指标汇总

跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等,对以上提到的各个评估指标逐一点评,并力图表明:

指标分类

学习分类 性能指标
分类 Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、
回归 MAE、MSE

分类

混淆矩阵

1代表正类,0代表负类,Predicted代表预测,Actual代表实际。

Predicted Predicted 合计
<u>1</u> <u>0</u>
Actual <u>1</u> D: (TP) -> 2814 C: (FN) -> 36 D+C: Actual Positive
Actual <u>0</u> B: (FP) -> 235 A: (TN) -> ** 248 ** A+B: Actual Negative
合计 B+D: Predicted Positive A+C: Predicted Negative
  • A: (True Negative) 将负类预测为负类数(正确预测负例),<u>(TN | 真负,0->0)</u>
  • B: (False Positive) 将负类预测为正类数,<u>(FP | 假正, 0->1)</u> → 误报
  • C: (False Negative) 将正类预测为负类数,<u>(FN | 假负, 1->0) </u>→ 漏报
  • D: (True Positive) 将正类预测为正类数(正确预测正例),<u>(TP | 真正, 1->1) </u>
  • A+B: (Actual Negative) 实际上负例的数量
  • C+D: (Actual Positive) 实际上正例的数量
  • A+C: (Predicted Negative) 预测的负例数量
  • B+D: (Predicted Positive) 预测的正例数量

实际的数据中,客户有两种可能good AND bad,其模型预测同样有两种可能,预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能,第一种True Positive(1->1):实际是Positive,预测成Positive,第二种True Negative(0->0):实际是Negative,预测成Negative;如果不匹配(犯错)则出现两种可能,第一种False Negative(1->0):实际是Positive,预测成Negative,第二种False Positive(0->1):实际是Negative,预测成Positive。


准确(分类)率 VS. 误分类率:

准确(分类)率(accuracy) = 正确预测的正反例数 / 总数

  • ACC = (TP+TN) / (TP+TN+FP+FN)
  • = (A+D) / (A+B+C+D)

误分类率 = 错误预测的正反例数 / 总数

  • 误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
  • = (B+C) / (A+B+C+D)

召回率 VS.精确率 → F1 Score

召回率(Recall) = 正确预测到的正例数 / 实际正例总数

  • Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
  • = D / (C+D)

精确率(Precision) = 正确预测到的正例数 / 预测正例总数

  • Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
  • = D /(B+D)

F1 Score

F1 Score为精准率和召回率的<u>调和均值</u>

  • 2 / F1 = 1 / P + 1 / R
  • F1 Score = 2TP / (2TP + FP + FN)
  • 准确率(accuracy)和精确率(precision)都高的情况下,F1 Score也会显得很高。

精确率是针对预测结果而言的,表示的是预测为正的样本中有多少是真正的正样本,预测为正就有两种可能,一种是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即 P = TP / (TP+FP)

召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),即 R = TP / (TP+FN)

精确率:预测正例与预测结果的比值,召回率:预测正例与实际样本正例的比值。


ROC 曲线

维基百科定义

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类。提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,此处引入ROC,ROC曲线可以用于评价一个分类器好坏。

ROC关注两个指标:

True Positive Rate: TPR = TP / (TP+FN) → 将正例分对的概率
Fales Positive Rate: FPR = FP / (FP+TN) → 将负例错分为正例的概率

在 ROC 空间中,每个点的横坐标是 FPR,纵坐标是 TPR,这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off。

ROC curve

ROC曲线中的四个点和一条线:

  • 点(0,1):即FPR=0, TPR=1,意味着FN=0且FP=0,将所有的样本都正确分类;
  • 点(1,0):即FPR=1,TPR=0,最差分类器,避开了所有正确答案;
  • 点(0,0):即FPR=TPR=0,FP=TP=0,分类器预测所有的样本都为负样本(negative);
  • 点(1,1):分类器实际上预测所有的样本都为正样本。
  • 总之:ROC曲线越接近左上角,该分类器的性能越好。

AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。
总之:AUC值越大的分类器,正确率越高。

  • AUC = 1:绝对完美分类器,理想状态下,100%完美识别正负类,不管阈值怎么设定都能得出完美预测,绝大多数预测不存在完美分类器;
  • 0.5<AUC<1:优于随机猜测。这个分类器(模型)妥善设定阈值的话,可能有预测价值;
  • AUC=0.5:跟随机猜测一样(例:随机丢N次硬币,正反出现的概率为50%),模型没有预测价值;
  • AUC<0.5:比随机猜测还差;但只要总是反预测而行,就优于随机猜测,因此不存在AUC<0.5的状况。
AUC

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反)

AUC是ROC的积分(曲线下面积)

补充:Gini coefficient

gini系数通常被用来判断收入分配公平程度,具体请参阅wikipedia-基尼系数

Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例,即gini coefficient = A面积 / (A面积+B面积) 。

用在评判分类模型的预测效力时,是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。

因此Gini coefficient与AUC可以互相转换:

gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2AUC-1*

回归

平均绝对误差

平均绝对误差MAE(Mean Absolute Error)又被称为 l1l1 范数损失(l1-norm loss):

平均平方误差

平均平方误差 MSE(Mean Squared Error)又被称为 l2l2 范数损失(l2-norm loss):

推荐阅读更多精彩内容