建模流程

1076028-20170105165730206-1701868875.png

定义目标变量:

三年还是三个月购买车险?(需要与客户沟通)哪些因素可能导致Y得发生,例如历史购买行为、年龄、收入?

•数据收集及整理 保证所有变量在将来模型应用中都有。

  • 整理所有数据,形成宽表。

  • 原始变量生成一些新的变量。

  • 理解目标变量与解释变量之间的关系(对分类型变量及字符型变量的处理) 待补充

模型检验

1.系数是否正确(与业务相联系)
2.变量间共线性(VIF、相关系数)  
3.R方 (AUC C)值
4.变量的P值

•和以前的模型做对比(看是否能够打败以前的模型)
•设计活动策略(倾向于给打分比较高的客户做营销,把客户分成10部分,只给60%的人发)
•跟踪情况

数据清洗

  • 缺失值处理(中位数 or INDEX相近值处理)
  • 上下限(针对连续形变量) 一般处理方法为掐头去尾
  • 相关系数(变量与变量 Y与变量,针对进入模型的变量)

建立模型

  • 最终模型的变量,每个变量的意义,系数,系数的P值,VIF,ROC曲线,C,AUC的值

  • 以及(10组)在数据上的表现情况(训练集、测试集、预测集)

模型评估

  • ROC曲线
  • 准确率、召回率

推荐阅读更多精彩内容