To You

When I think of you, I’m reminded of the beautiful plains of Iowa.The distance between us is breaking my spirit. My time and experiences without you are meaningless to me. Falling in love with you was the easiest thing I have ever done. Nothing matters to me but you.And everyday I am alive, I’m aware of this. I loved you the day I met you, I love you today, and I will love you to rest of my life.

风控建模的流程

  1. 理解业务逻辑和需求,项目周期和安排,模型结果的要求
  2. 模型设计
  3. 数据读取和清洗
  4. 特征工程
  5. 建立模型与评估
  6. 上线部署
  7. 模型监控

PSI指标

群体稳定性,在需要监测的维度上分档,观察不同样本或者不同时间的样本的分布是否有显著变化,具体可以查看PSI计算公式。小于0.1认为稳定性高

评分卡模型

银行非常喜欢用,首先基于IV值(信息量)对特征进行筛选,计算的时候用到一个概念叫WOE(证据权重),WOE需要对变量分箱,这样可以让模型对异常值不敏感,降低模型过拟合风险,学到样本的非线性信息。

分箱方法:无监督(等宽,等频,K-means),有监督(卡方,单变量决策树ID3,C4.5,CART),IV最大化,best-ks

补充一下三种决策树算法

ID3:可以有多分支,根据最大信息熵增益选取当前最佳的特征来分割数据

C4.5:ID3一般会优先选择有较多属性的特征,所以改为用信息增益比率来作为分裂信息。而且通过对连续属性进行扫描排序后可以处理连续的特征属性

CART:二叉树,可以用于分类也可以用于回归,分类用基尼系数来选择分割特征,回归用均方差

对于连续变量,分箱后需要满足bad rate(每个bin下的坏样本率)的单调性。对于高离散变量,可以对每个属性信息进行统计得到bad rate的值然后进行编码。对于低离散变量,对bad rate出现极端情况的bin进行合并即可。

满足特征对目标变量的单调性之后做WOE变换,进而计算IV值,最后保留VI较大的变量。

接着扔进logistics模型,分类任务可以计算出混淆矩阵,根据混淆矩阵可以得到KS值max(TPR-FPR),表征模型的区分能力。曲线的横轴是阈值,纵轴是TPR和FPR两条。其本质和ROC曲线是一样的

相关的还有Lift曲线和PR曲线,lift曲线衡量的是与不利用模型相比,模型的预测能力变好了多少,曲线的横坐标的深度,纵坐标是lift值,其都有相应的计算公式

PR曲线的x轴是查全率,y轴是查准率, 相关的量是F1值和平衡点

最后根据得分公式代入换算成得分即可

常见的问题

常见的问题

如何保证模型的稳定性:数据预处理筛选变量,异常值检查剔除噪声,交叉验证,选择泛化能力较好的模型

如何做模型的冷启动:用规则对用户进行风险评估,借用相同模式产品的数据,用无监督模型+评分卡

如何衡量一个风控模型:首先评估样本的稳定性,然后看分箱过程中的WOE值差异和大小,看逻辑回归模型的评估指标,看评分转换后的评估,最后看上线后的评分PSI

如何处理高维稀疏和弱特征:LR比GBDT表现好,这是因为逻辑回归的正则项是对特征权重的惩罚,但是GBDGT的惩罚是针对深度和叶子结点数目的,所以在高维稀疏特征上容易过拟合。评分卡模型中可以对稀疏特征离散化(是否为0),然后进行WOE编码。对于弱特征,评分卡中尽量要去除,但xgboost中可以保留