二元分类特征的选择:IV值

IV值(Information Value),即信息价值指标,是评分卡模型中的一个常见指标,在金融风控领域得到了广泛的应用,尤其是在特征选择的场景下,会经常提及这个概念。

在这之前

在风控领域,更多的是二分类问题,即好人与坏人的分类识别,这些案例其实就是我们所面对的坏人样本。对抗模型的建立,就是基于从这些样本中找到能识别坏人的特征。从某种意义上来讲,模型的好坏有时取决于分析样本的多少,其分析的越多,经验越丰富,做的模型效果越好。

在案例的分析中,可能会发现多个不同的特征,甚至不同的人分析时也会得到不同的结果。如何挑选其中最有效的特征,或者在多个特征前面,我们又应该以什么标准来衡量它们呢?

IV值是一个非常方便和好用的选择。

如何计算IV值

IV值衡量了某个特征对目标的影响程度,其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度,计算公式如下:

IV计算公式

其中Distribution Good(i)表示i分组命中白样本的占比,如果用#good(i)表示i分组命中的样本数,#good(T)表示所有的白样本总量,则 Distribution Good(i) = #good(i) / #good(T)。

因为计算过程中用的是命中黑白样本各自的比例,所以在工程实践中,一定程度上规避了黑白样本数的不同选择所带来的偏差。

案例应用和分析

在很多场景都会用到年龄和性别这两个特征,这两个特征不仅可以用来刻画用户的画像,而在风控领域中,我们还会考虑是否男性用户做坏事的更多,不同年龄的用户干坏事的几率会不会不太一样。

为了证实我们的猜想,可以计算这两个特征的IV值。下表我们计算了年龄这个特征的IV值,从表中可以看出,我们对年龄这个特征做了离散化,将其划分为4个分组,并计算了每个分组命中黑白样本在总黑白样本的占比情况,进而计算最终的IV值。

年龄特征的IV值计算

在年龄的IV值计算表格中,我们可以看出,21-30这个年龄段的分组样本数最少,但命中的黑样本缺却最多,说明这个年龄段的人最有可能作恶。而在48-60这个年龄段的分支中,样本数量并不比其他分组少,然而命中的黑样本却明显少于其他分组。直觉告诉我们,年龄特征可以很好的识别好人与坏人,而最终计算的IV值为0.46也正好说明了这点。

同样的,我们计算性别特征的IV值,如下表,性别特征分为男女两组,直观上看,两个分组的样本数相近,而且命中的黑白样本数量也很相近,看起来,性别特征的区分度并不明显,而我们计算的IV值也只有0.003.

性别特征的IV值计算

IV值的选择

从性别和年龄两个特征的案例,我们可以看出,最终计算的IV值能够比较好表达两个特征的区分度,并且跟我们的直观感受很相近。

当我们计算出特征的IV值后,该如何去解释它的预测能力。或者说,当IV值取到多大时,我们才选择这个特征。这里给出一个经验参考表

IV值 预测能力
< 0.02 无预测能力
0.02 ~ 0.1 较弱的预测能力
** 0.1 ~ 0.3 ** ** 预测能力一般 **
** 0.3 ~0.5 ** ** 较强的预测能力 **
> 0.5 可疑

由表我们可以知道,并不是IV值越大越好,当IV值大于0.5时,我们需要对这个特征打个疑问,因为它过于太好而显得不够真实。通常我们会选择IV值在0.1~0.5这个范围的特征。可能不同场景在取值的细节上会有所不同,比如某些风控团队会将IV值大于0.05的特征也纳入考虑范畴,而学术界则有观点认为选择0.1~0.3这个范围会更好。

参考文章:
http://blog.sina.com.cn/s/blog_8813a3ae0102uyo3.html
http://ucanalytics.com/blogs/information-value-and-weight-of-evidencebanking-case/

(全文完)