逾期风控预测,风控评分卡模型

时间：2022-11-12 15:24:58来源：法律常识

风控模型建立之后，必须对风控模型的效果进行评估。在分类模型评估中，最常见的评估标准有KS曲线、ROC曲线、AUC值等。那么她们分别的意思和用途是什么呢？以下为卡尔数科风控总监介绍的全部内容。

KS曲线

KS(Kolmogorov-Smirnov)：用于评估模型的风险区分能力，指标衡量的是好坏样本累计分布之间的差值(最大值）。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。

为了便于理解，现假设有1000个样本，其中200个为坏样本（标记为1），800个为好样本（标记为0）。计算模型KS值的步骤如下：

step1：用这1000个样本训练一个模型(可以是逻辑回归、GBDT等)，得到1000个样本预测为逾期的prob。

step2：把1000个样本根据prob从高到低排序。

step3：把样本均分成10组/20组等。

step4：统计每个组别中逾期客户数量/正常客户数量。

step5：统计每个组别中累计逾期客户数量占比/累计正常客户数量占比。

step6：计算每个组别中abs(累计逾期客户数量占比-累计正常客户数量占比)。

step7：找到累计占比差值绝对值最大的数，即为所求的KS值。

计算出了模型的KS，那么什么样的KS值，模型是可以使用的？根据行业内的规范，一般KS值要大于0.2才是一个可用的模型，且KS值越大模型效果越好。但是，KS值过高，需核验模型是否使用未来变量，要谨慎使用。具体KS值对应的模型区别能力见下表：

ROC曲线和AUC值

ROC（Receiver Operating Characteristic）:曲线通过设置不同的临界值，来展示分类模型在不同临界值下的表现。

AUC（Area Under Curve）:ROC 曲线与 FPR 轴围成的面积记作 AUC，AUC 越大，说明分类器的性能越好。

风控模型训练完成之后，每个样本都会有对应的两个概率值，一个是样本为正样本的概率，一个是样本为负样本的概率。把每个样本为正样本的概率取出来，进行排序，然后选定一个阈值，将大于这个阈值的样本判定为正样本，小于阈值的样本判定为负样本，然后得到两个值，一个是真正率，一个是假正率。

真正率是判定为正样本，实际为正样本的样本数/所有的正样本数。假正率是判定为正样本，实际为负样本的样本数/所有的负样本数。每选定一个阈值，就能得到一对真正率和假正率，由于判定为正样本的概率值区间为[0,1]，那么阈值必然在这个区间内选择，因此在此区间内不停地选择不同的阈值，重复这个过程，就能得到一系列的真正率和假正率，以这两个序列作为横纵坐标，即可得到ROC曲线了。而ROC曲线下方的面积，即为AUC值，一般模型的AUC在0.5到1之间，AUC越高，模型的区分能力越好。

AUC也存在一些缺陷：

1.忽略了预测的概率值和模型的拟合优度；

2.AUC 反应的信息过于笼统，无法反应实际业务中关心的指标；

3.AUC 对 FPR 和 TPR 两种错误的代价同等看待；

4.AUC 没有给出模型误差的空间分布信息；

5.AUC 的 misleading 的问题：可能存在两个模型的 AUC 相等，但其在不同区域的预测能力是不同的。

KS与AUC的区别

KS值是能找出风控模型中差异最大的一个分段，因此适合用于cut_off，像评分卡就适合用KS值来评估。但是KS值只能反映出哪个分段是区分最大的，而不能反映所有分段的效果，因此同时还要关注AUC值。AUC值一般在0.5到1之间，值越大表示模型判断准确性越高，即越接近1越好。

如果负样本对业务影响极大，那么区分度肯定就更重要，此时KS比AUC更合适用作模型评估，如果没什么特别的影响，用AUC评估就可以了。

END

标签：逾期风控预测(1) 风控评分卡模型(1)