搭建金融信贷风控中的机器学习模型-(4)特征分箱与编码

        风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行分箱处理。最终,对进入模型的特征还要做单变量与多变量分析。

1.分箱简述

分箱的定义:1)对于数值型变量,将取值范围分为几个有限的分段,例如将收入分为<5k,510k,1020k,>20k等;2)对于类别型变量,如果取值很多,将 其合并为较少的几个分段。
分箱原因:1)评分结果需要稳定性,当样本数值型变量发生较小波动,评分结果不应发生改变;2)对于类别型变量,当取值很多时,如果不分箱会发生变量膨胀,例如,对31个省份编码,独热编码会有31个变量,dummy编码也会有30个变量。
分箱要求:1)取值较少的类别型变量不需要分箱;2)分箱结果需要有序性;3)分箱的平衡性;占比最小的箱数据不低于5%;4)分箱的单调性:在要求较严格的情况下,每箱的坏样本率与箱呈单调关系;当非单调时,需要与前箱或后箱合并,选择前或后有两种方案:一是选择合并后卡方值小的方案;二是选择合并后更加均匀的方案,均匀程度的衡量方式为:balance=\sum_i(p_i)^2,其中p_i为每箱样本占比,值越小越均匀5)分箱的个数,通常分箱后,箱的个数不能太多,一般5~7个;5)特殊值作为一箱,但不参与单调性比较,若特殊值的分箱样本占比低于5%,则与第一箱或最后一箱合并。
分箱的优缺点优点:1)比较稳定,原始变量在一定范围内波动,不会影响结果;2)可以处理缺失值,将缺失值作为特殊取值;3)异常值处理,可以与其他取值合并为一箱;4)无需归一化,数值型变量变为类别型,没有尺度的差异。缺点:1)有一定信息的丢失;2)需要编码,分箱后是类别型,需要进行数值编码。

2.分箱方法

分箱的初衷将相似度高的样本分为一组。无监督分箱考虑的是特征分布相似度;有监督分箱考虑的是特征业务含义相似度。

  • 有监督:卡方分箱,决策树分箱
    优点:与目标变量结合,最大程度将目标变量的信息反映在特征中
    缺点:计算量大
  • 无监督:等频、等距、聚类
    优点:计算简单
    缺点:合理性得不到保证;不能充分利用目标变量的信息
    卡方分箱
            在有监督的分箱中,卡方分箱是一种常用的方法,它以卡方分布和卡方值为基础,判断某个因素是否会影响目标变量。卡方检验的无效假设H0是:观察频数与期望频数没有差别,即该因素不会影响目标变量。基于该假设计算卡方值,它表示观察值与理论值之间的偏离程度,根据卡方值与自由度确定获得当前取值及更极端取值的概率P,如果P值很小,则拒绝原假设。
    卡方值计算:\chi ^{2}=\sum_{i=1}^{j=m}\sum_{j=1}^{j=k}\frac{(A_{ij}-E_{ij})^{2}}{E_{ij}}
    m为因素取值个数
    A_{ij}为第ij类别的观测频数
    E_{ij}为第ij类别的理论频数
            卡方分箱是采用自下向上不断合并的方法完成分箱。在每一步合并的步骤中,依靠最小的卡方值寻找最优的合并项。其核心思想是,如果两个区间可以被合并,那么这两个坏样本需要最接近的分布,进而意味着两个区间的卡方值是最小的,具体步骤为:
    (1)将数值变量A排序后分成区间较多的若干组;
    (2)计算相邻区间合并后的卡方值;
    (3)将卡方值最小的相邻两区间合并;
    (4)不断重复2,3步,直至终止条件。终止条件:1)最小卡方值的p值超过0.1或者0.05;2)区间数达到指定数目。在开发评分卡模型时,还需满足以下两个条件:1)每箱的坏样本率单调,如果非单调性有一定的业务含义,可以保留U型或倒U型的坏样本率分布;2)每箱都有好样本和坏样本,为了后续计算WOE值。
    以上的分箱是对于数值型变量。对于无序类别型变量,比如省份,需要对变量进行数值编码,常用坏样本率编码编码后排序、分箱;对于有序类别型变量,比如学历,可以排序后分箱。
    卡方分箱优缺点:优点:1)解释性强,以卡方检验为原理,具有很强的统计意义,可以解决多分类场景{非违约,轻度违约,重度违约}的分箱;缺点:计算量大。

3.WOE编码

        编码是一种数值代替非数值的操作,目的是为了让模型对其进行数学运算。
i箱WOE值的计算公式:WOE_i=ln(\frac{G_i/G}{B_i/B})=ln(\frac{G_i}{B_i})-ln(\frac{G}{B})=ln(\frac{G_i}{G})-ln(\frac{B_i}{B})其中。G_i表示第i箱好样本数,G是全部好样本数。
优缺点:优点:1)提高模型性能,具有业务意义,比如大于0时,表示该箱的好坏比大于整体样本好坏比;2)统一变量的尺度,一般介于-4~4之间;3)分层抽样后WOE不变。缺点:1)对于多类别变量无效。

4.特征信息值IV

        IV可以衡量变量的重要性,进而筛选重要的特征。
IV计算公式:IV=\sum_i(\frac{G_i}{G}-\frac{B_i}{B})*WOE_i
IV值是非负的;woe反映的是每箱中好坏比相对全体样本好坏比的超出,而IV反映的是这种超出的显著性。需要注意:1)IV越大,特征越重要,但不宜过大,否则有过拟合的风险;2)IV计算同样要求每箱要有好坏样本;3)不仅与特征重要度有关,同时与分箱方式有关,分箱越细,IV越大。

5.单变量分析(Single Factor Analysis)

1.特征重要性
IV>=0.2,有较高重要性
IV介于0.1~0.2,有较弱重要性
IV<0.1,几乎无重要性
2.稳定性
通常使用PSI指标
3.覆盖率
筛除掉覆盖率较低的样本

6.多变量分析(Multi Factor Analysis)

完成单变量分析后,需要对变量的整体性做把控,进一步缩减变量规模,形成全局更优的变量体系。

  • 两两线性相关性,较多的相关性会造成信息冗余,同时增加模型开发、部署与维护的负担。通常使用相关性矩阵检验相关性
  • 多重共线性。多重共线性是指某一变量,与其他变量的线性组合存在较强的线性相关性。多重共线性通常使用方差膨胀因子(VIF)衡量,其计算公式为:
    VIF(f_i|f_1,f_2,...,f_j)=\frac{1}{1-R^2},其中R^2f_1,f_2,...,f_jf_i的线性回归的决定系数。一般当VIF>10时,表示存在多重共线性。

(如有不同见解,望不吝指教!!)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容

  • 在做风控策略分析时,我们经常要对某个变量进行离散化,查看不同阶段的好坏用户分布情况,好的离散化方法可以让我们找到比...
    鸣人吃土豆阅读 3,515评论 1 2
  • 简介 本文通过使用LendingClub的数据,采用卡方分箱(ChiMerge)、WOE编码、计算IV值、单变量和...
    乘物以游心阅读 5,921评论 4 8
  • 在金融风控领域,无人不晓的应该是评分卡,美国fico公司算是评分卡的始祖,始于 20世纪六十年代, 评分卡大致20...
    Helen_Cat阅读 5,335评论 2 15
  • 以下以申请评分卡(A卡)建模为例,描述模型开发的基本流程:1.数据准备:定义目标变量,整合样本特征;划分数...
    GQRstar阅读 3,539评论 0 12
  • 自从上周知道魏书生先生今天要来做报告,心中那是一个激动。很久以前就看过先生的书《班主任工作漫谈》这本书,但还是...
    长发及腰阅读 104评论 0 0