《机器学习》第二章

知识整理

ROC和AUC

  • ROC的画法:参考CSDN
  • AUC的意义:从Positive中选一个例子P,从Negetive中选一个例子N,学习器判断P为正例的概率为s1,判断N为正例的概率为s2,s1 >s2的概率就是AUC。
  • AUC的计算方法:参考《机器学习》35页公式。公式尝试理解:lrank计算的就是当前正例被判为正例的概率比反例被判为反例的概率小的概率,既s1 < s2的概率,对于每一个正例,算出这样一个概率,然后取平均值,作为AUC。
  • 参考资料: 知乎

习题

2.1

500取350组合数 × 500取350组合数

2.2

  • 10折交叉验证法:将100个样本划分为10个互斥的子集,并保持每个子集的一致性,得到10个子集,每个子集10个样本,5个正例,5个反例,然后取9个子集进行训练,1个子集进行测试,由于每个子集中正反例数目相等,所以预测结果的错误率应该为50%。
  • 留一法: 若留的是正例,则训练集中反例数量比正例数量多一个,留得正例被预测为反例;若留的是反例,则训练集中正例数量比反例数量多一个,留得反例被预测为正例。

2.3

BEP值和F1值没有关系

2.4

TPR(真正例率):真正例占正例的比例。TP/(TP+FN)
FPR(假正例率):假正例占反例的比例。FP/(FP+TN)
P(查准率):TP/(TP+FP),正例中有多少比例被判为真正例
R(查全率):TP/(TP+FN),被判为正例的数据中,有多少比例是真正例

2.5

不会

2.6

ROC上的每一个点都会对应一个TPR和FPR,设有m+个正例,m-个反例:

  • 错误率E = (m+ × (1-TPR) + m- × FPR) / (m+ + m-).
  • 加入代价后 Ecost = (m+ × (1-TPR) × cost01 + m- × FPR × cost10) / (m+ + m- ).
  • 学习器会在错误率最低处进行截断。

推荐阅读更多精彩内容