模型效果上限预估、分类模型Bad Case分析方法

给定训练和测试数据集，训练某个二分类模型（如，GBDT算法），我们通过交叉验证的方法得到了一组最优超参数以及对应的最优模型，但在测试集上这个模型仍有一定的误差率，也就说模型的预测结果存在一定数量的bad case。那么，目前的模型逼近了效果的上限了吗？这些bad case有可能被解决吗？如果可以，该如何解决呢？

回答这些问题的前提条件是样本和特征已经固定下来，本文不讨论那些数据集本身还在迭代变化的情况。

一、两类Bad Case

标签正确的困难样本。模型没有拟合好这类样本，也就是模型还有进步的空间，尚未逼近效果的上界。
标签错误的噪声样本（outlier）。模型没有必要去拟合这类样本，过拟合会导致模型在真实使用环境的效果下降。

需要注意的是，这里说的噪声样本不一定是我们收集、加工数据的过程中出现了错误，有可能是样本对应的真实世界中的行为就是一个小概率的行为，这些小概率的异常行为虽然本身有可能真实存在，但是过度关注这些行为，会导致模型拟合正常行为的能力下降，而且并不会在模型的真实使用时带来增益。

由此可见，我们只要识别出噪声样本的数量，就能大致估算出模型的效果上界是多少。另外一方面，识别出标签正确的困难样本，也有助于我们寻找到模型改进的方法。

二、噪声样本识别方法

目前基于带噪标签数据的学习方法主要有两大类，一类是直接训练对噪声鲁棒的模型（noise-robust models），另一类方法首先识别出噪声数据，然后基于清洗后的数据训练模型。

尽管第一类方法已经足够好，但是面对老板如下的“灵魂拷问”，我们还是要关注一下第二类方法。

模型的效果上限是多少？
这个case为什么预测错误？

本文主要关注第二类方法。

1. 基于K近邻算法识别噪声样本

假设我们有一个样本相似度模型能够度量两个样本的相似度，那么可以针对bad case使用K近邻算法对其分类，根据分类结果识别其是否是噪声样本。这种方法的原理是假设相似的样本具有相同的分类标签。

一个二分类模型的bad case有以下两种情况：

False Negative: 正样本被错误地预测为负样本
False Positive: 负样本被错误地预测为正样本

FN) 正样本被错误地预测为负样本

根据样本特征的相似度度量，在训练集上检索出与目标正样本最相似的K个邻居样本；
统计K个邻居样本中正负样本的比例分布，假设K个邻居样本中N个正样本，则分类为正样本的概率 $p=\frac{N}{K}$
如果 $p$ 大于某个设定的阈值（如，0.6），则判断该bad case样本为“标签正确的困难样本”，后续的模型迭代要更加关注这类样本。
如果 $p$ 小于某个设定的阈值（如，0.6），则判断该bad case样本为“标签错误的噪声样本”。该样本后续建议从训练集和测试集中移除。

FP) 负样本被错误地预测为正样本

根据样本特征的相似度度量，在训练集上检索出与目标负样本最相似的K个邻居样本；
统计K个邻居样本中正负样本的比例分布，假设K个邻居样本中N个负样本，则分类为负样本的概率 $p=\frac{N}{K}$
如果 $p$ 大于某个设定的阈值（如，0.6），则判断该bad case样本为“标签正确的困难样本”，后续的模型迭代要更加关注这类样本。
如果 $p$ 小于某个设定的阈值（如，0.6），则判断该bad case样本为“标签错误的噪声样本”。该样本后续建议从训练集和测试集中移除。

如何度量样本特征的相似度

建立模型，比如采用“度量学习”的方法；优点是相似度度量更加精准。
使用特征向量的余弦相似度；优点是使用门槛低。
使用特征向量的加权余弦相似度；优点是相比于简单的余弦相似度，精度更高。

余弦相似度计算公式：
$sim(x, y) = \frac{x \cdot y}{\lVert x \rVert \lVert y \rVert} = \frac{\sum_{i=1}^n x_i \times y_i}{\sqrt{\sum_{i=1}^n x_i^2} \times \sqrt{\sum_{i=1}^n y_i^2}}$

加权余弦相似度：

$weighted\_sim(x, y) = \frac{wx \cdot wy}{\lVert wx \rVert \lVert wy \rVert} = \frac{\sum_{i=1}^n w_ix_i \times w_iy_i}{\sqrt{\sum_{i=1}^n (w_ix_i)^2} \times \sqrt{\sum_{i=1}^n (w_iy_i)^2}}$

并不是每个特征在分类决策中做出的贡献都是相同的，所以，在有特征重要度权重的条件下，使用“加权余弦相似度”会比基础的“余弦相似度”度量方法有更好的结果。

使用GBDT算法，如阿里云平台上的 PS_SMART，训练的模型通常都可以输出每个特征的重要度分数，这些特征重要度分数的量级差异通常都比较大，在代入到“加权余弦相似度”计算公式时，需要先做softmax归一化，具体公式如下：
$normalized\_score(x_i)=\frac{exp(x_i)}{\sum_{j=1}^n exp(x_j)}$

如何快速从海量的样本库中检索Top K个最相似的邻居样本

使用向量检索引擎，比如 faiss， mivus，有一定的使用门槛。

推荐使用阿里云开源的推荐算法训练框架EasyRec中集成的向量检索算法，可以直接运行在MaxCompute上，使用命令如下：

pai -name easy_rec_ext -project algo_public_dev
-Dcmd=vector_retrieve
-Dquery_table=odps://pai_online_project/tables/query_vector_table
-Ddoc_table=odps://pai_online_project/tables/doc_vector_table
-Doutput_table=odps://pai_online_project/tables/result_vector_table
-Dcluster='{"worker" : {"count":3, "cpu":600, "gpu":100, "memory":10000}}'
-Dknn_distance=inner_product
-Dknn_num_neighbours=100
-Dknn_feature_dims=128
-Dknn_index_type=gpu_ivfflat
-Dknn_feature_delimiter=','
-Dbuckets='oss://${oss_bucket}/'
-Darn='acs:ram::${xxxxxxxxxxxxx}:role/AliyunODPSPAIDefaultRole'
-DossHost='oss-cn-hangzhou-internal.aliyuncs.com'

模型参数说明请查看文档：https://easyrec.readthedocs.io/en/latest/vector_retrieve.html

2. 基于Confident Learning方法的噪音样本识别方法

置信学习(Confident Learning)是MIT和Google的研究人员提出一种可以快速地找出错误标签样本的迭代模型，并且有开源的工具库Cleanlab可以使用。

术语定义：

人工标签 $\tilde{y}$ ：样本中的标签（可能存在错误，不一定指人手工打上的标签，也可能是业务回流数据生成的标签）
真实标签 $y^*$ ：样本对应的真实标签，是未知的。

条件独立假设：每个样本被误标注都是条件独立的。

第一步：计算置信度联合分布矩阵

置信度联合计数矩阵 $C$ （有点类似混淆矩阵）的行表示预测标签样本个数，列表示真实标签样本个数。每个单元格 $C_{ij}$ 表示真实标签为 $j$ ，人工标签为 $i$ 的样本个数。

对于一个样本，它的人工标签是已知的，即样本中的标签。

但是该样本的真实标签却是未知的，可以通过如下两个条件判断真实标签：

该标签的预测概率在所有标签概率中最大
该标签的预测概率大于计算得到的阈值，阈值的计算方法如下：

$t_j=\frac{1}{|X_{\tilde{y}=j}|}\sum_{x \in X_{\tilde{y}=j}} \hat{p}(\tilde{y}=j; x, \theta)$

对于二分类问题，真实标签为正样本的阈值为所有预测为正样本的预测概率的平均值；负样本阈值为所有预测为负样本的预测概率的平均值。

上述两个条件中的第一个很好满足，但是第二个条件不一定满足，所以并不是所有的样本都可以找到其真实标签，这也会在后续的步骤中有所体现。

$C_{\tilde{y},y^*}$	$y^*=1$	$y^*=0$
$\tilde{y}=1$	100	40
$\tilde{y}=0$	50	80

上表例子中的总样本数为： $N=100+40+50+80=270$

置信度联合计数矩阵 $C$ 的计算公式如下：

第二步：计算置信度联合概率分布矩阵

在前一步构造置信度联合计数矩阵时，受到概率阈值限制，部分样本没有计算出真实标签。置信度联合计数矩阵中的样本数<=真实样本数。所以需要对置信度联合计数矩阵中的样本数量进行重新校准，校准公式如下：
$\tilde{C}_{\tilde{y}=i,y^*=j} \leftarrow \frac{C_{\tilde{y}=i,y^*=j}}{\sum_{j \in [m]} C_{\tilde{y}=i,y^*=j}} \cdot \left| X_{\tilde{y}=i} \right|$

即针对 $C$ 矩阵中的每一行计算属于各个真实标签的概率值（上述公式右项乘号前面的子项），再乘以人工标签为 $i$ 的样本总数（上述公式右项乘号后面的子项）。

根据校准之后的置信度联合计数矩阵，我们可以通过如下公式计算置信度联合概率分布矩阵 $Q$ ：
$\hat{Q}_{\tilde{y}=i,y^*=j} = \frac{\tilde{C}_{\tilde{y}=i,y^*=j}}{\sum_{i \in [m],j \in [m]} \tilde{C}_{\tilde{y}=i,y^*=j}}$

举例如下：

$\hat{Q}_{\tilde{y},y^*}$	$y^*=1$	$y^*=0$
$\tilde{y}=1$	0.37 (=100/270)	0.15 (=40/270)
$\tilde{y}=0$	0.185 (=50/270)	0.296 (=80/270)

备注：这里省略了计数校准的标准。

第三步：寻找错误标签样本

原始论文中提供了四种方法，这里介绍其中两种。

假设样本总数为 $n$ ，对于置信度联合概率分布矩阵的每个非对角线元素，计算 $n \cdot \hat{Q}_{\tilde{y},y^*}$ 作为对 $|\hat{X}_{\tilde{y}=i,y^*=j}|$ 的预估。比如，假设共有100个样本，根据上表中的数据，判定有15个标注为正样本的数据实际上属于负样本。

Prune by Class

对于每个类 $i$ ，选择 $n\cdot \sum_{j\in [m]:j \ne i}(\hat{Q}_{\tilde{y}=i,y^*=j}[i])$ 个置信度最低（模型预测概率最低）样本作为“噪声”样本。

根据上表中的数据，预测结果为正样本的样本集合中，15个预测概率最低的样本被判定为“噪声”样本；预测结果为负样本的样本集合中，18个预测概率最低（predict label=1的概率最高）的样本被判定为“噪声”样本。

Prune by Noise Rate

对于置信度联合概率分布矩阵的每个非对角线元素，计算 $n \cdot \hat{Q}_{\tilde{y},y^*}$ 个样本（ $x \in X_{\tilde{y}=i}$ ）作为“噪声”样本，选择条件是预测概率差值（ $\hat{p}_{x,\tilde{y}=j}-\hat{p}_{x,\tilde{y}=i}$ ）最大的那个子集。

根据上表中的数据，预测结果为正样本的样本集合中，15个 “预测为负样本的概率-预测为正样本的概率” 最大的样本被标记为“噪声”样本；预测结果为负样本的样本集合中，18个 “预测为正样本的概率-预测为负样本的概率” 最大的样本被标记为“噪声”样本；

3. 深度学习模型的噪音样本识别方法

a. 基于Forgetting Events识别错误标签

在模型训练过程中，某个样本已经被模型正确分类，随着模型参数的更新，该样本又被错误分类，这一过程被称之为该样本的一次遗忘事件（forgetting event）。根据论文《AN EMPIRICAL STUDY OF EXAMPLE FORGETTING DURING DEEP NEURAL NETWORK LEARNING》的研究，在模型训练过程中噪声样本往往会比正常样本经历更多的遗忘事件。基于这一启发式规则，我们可以记录下每个样本经历的遗忘事件总次数，进一步辨别出可能的噪声标签数据。

b. 基于训练过程的样本loss值识别错误标签

基于训练过程中样本的loss值的相对大小来识别错误标签，这一方法是淘系技术部的同学在ICCV2019的论文《O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks》中提出的。

大致思路基于以下逻辑：在一次训练中，随着迭代轮次增加，网络逐渐从欠拟合逐渐过渡到过拟合状态，在训练的初期，模型精度的提升是非常明显的，因为网络很快学会了那部分“简单的”样本，因此这类样本的loss比较小，与之相反，那些“困难的”样本通常在训练的后期才逐渐被学会。观察训练过程发现，噪声样本通常是在训练的后期才被学会，因而在训练的早期，噪声样本的平均loss是远大于干净样本的，而在训练的后期，因为网络逐渐学会了所有样本，两类样本的loss区别不大。纵观整个训练过程，从欠拟合到过拟合，噪声样本loss的均值和方差都比干净样本要大。通过循环学习率策略，使网络在欠拟合和过拟合之间多次切换，并追踪不同阶段不同参数的模型对样本的loss，通过在时间维度上捕获多样性足够丰富的模型（类似集成学习，对满足多样性和准确性的多个模型进行ensemble），统计各个样本loss的均值和方差，均值和方差越大，样本属于噪声样本的概率也就越大。

三、如何估算模型效果上界

假设测试集样本数为 $N$ ，其中模型预测错误的样本数为 $E$ ，这些预测错误的样本中有 $M$ 条被上述方法识别为噪声样本，那么：

目前模型的分类正确率为： $Accuracy=\frac{N-E}{N}$
估计的模型正确率上界为： $UpperBound=\frac{N-M}{N}$

对于二分类问题，召回率、准确率的上界计算方法类似，这里不再赘述。

四、如何改进模型，使模型逼近效果上界

借鉴AdaBoost算法原理，通过改变训练数据的样本权重，迫使模型更加关注分类错误的困难样本，从而得到更加鲁棒的模型。

使用初始模型，得到训练集、测试集上错误预测bad case集合；
使用上述噪声样本识别算法，识别出bad case的类型；
从数据集中移除所有被识别为“噪声”的bad case样本；
把识别为“困难”的bad case样本添加到训练集中，并设置一个较高的样本权重；减小其余初始模型预测正确的样本的权重（假设所有样本的默认初始权重都为1）；
使用新的带权重的数据集重新训练模型；
重复上述1~6步，直到模型逼近效果上界为止。

参考文章：

几种噪声标签识别算法简介

本文由mdnice多平台发布

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,026评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,655评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,726评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,204评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,558评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,731评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,944评论 2赞 314
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,698评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,438评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,633评论 2赞 247
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,125评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,444评论 3赞 255
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,137评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,103评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,888评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,772评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,669评论 2赞 271

模型效果上限预估、分类模型Bad Case分析方法

模型效果上限预估、分类模型Bad Case分析方法

一、两类Bad Case

二、噪声样本识别方法

1. 基于K近邻算法识别噪声样本

FN) 正样本被错误地预测为负样本

FP) 负样本被错误地预测为正样本

如何度量样本特征的相似度

如何快速从海量的样本库中检索Top K个最相似的邻居样本

2. 基于Confident Learning方法的噪音样本识别方法

第一步：计算置信度联合分布矩阵

第二步：计算置信度联合概率分布矩阵

第三步：寻找错误标签样本

3. 深度学习模型的噪音样本识别方法

a. 基于Forgetting Events识别错误标签

b. 基于训练过程的样本loss值识别错误标签

三、如何估算模型效果上界

四、如何改进模型，使模型逼近效果上界

参考文章：

推荐阅读更多精彩内容