逾期风控预测,风控评分卡模型

时间:2022-11-12 15:24:58来源:法律常识

风控模型建立之后,必须对风控模型的效果进行评估。在分类模型评估中,最常见的评估标准有KS曲线、ROC曲线、AUC值等。那么她们分别的意思和用途是什么呢?以下为卡尔数科风控总监介绍的全部内容。


01

KS曲线


KS(Kolmogorov-Smirnov):用于评估模型的风险区分能力,指标衡量的是好坏样本累计分布之间的差值(最大值)。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。



为了便于理解,现假设有1000个样本,其中200个为坏样本(标记为1),800个为好样本(标记为0)。计算模型KS值的步骤如下:


step1:用这1000个样本训练一个模型(可以是逻辑回归、GBDT等),得到1000个样本预测为逾期的prob。

step2:把1000个样本根据prob从高到低排序。

step3:把样本均分成10组/20组等。

step4:统计每个组别中逾期客户数量/正常客户数量。

step5:统计每个组别中累计逾期客户数量占比/累计正常客户数量占比。

step6:计算每个组别中abs(累计逾期客户数量占比-累计正常客户数量占比)。

step7:找到累计占比差值绝对值最大的数,即为所求的KS值。


计算出了模型的KS,那么什么样的KS值,模型是可以使用的?根据行业内的规范,一般KS值要大于0.2才是一个可用的模型,且KS值越大模型效果越好。但是,KS值过高,需核验模型是否使用未来变量,要谨慎使用。具体KS值对应的模型区别能力见下表:




02

ROC曲线和AUC值


ROC(Receiver Operating Characteristic):曲线通过设置不同的临界值,来展示分类模型在不同临界值下的表现。


AUC(Area Under Curve):ROC 曲线与 FPR 轴围成的面积记作 AUC,AUC 越大,说明分类器的性能越好。


风控模型训练完成之后,每个样本都会有对应的两个概率值,一个是样本为正样本的概率,一个是样本为负样本的概率。把每个样本为正样本的概率取出来,进行排序,然后选定一个阈值,将大于这个阈值的样本判定为正样本,小于阈值的样本判定为负样本,然后得到两个值,一个是真正率,一个是假正率。


真正率是判定为正样本,实际为正样本的样本数/所有的正样本数。假正率是判定为正样本,实际为负样本的样本数/所有的负样本数。每选定一个阈值,就能得到一对真正率和假正率,由于判定为正样本的概率值区间为[0,1],那么阈值必然在这个区间内选择,因此在此区间内不停地选择不同的阈值,重复这个过程,就能得到一系列的真正率和假正率,以这两个序列作为横纵坐标,即可得到ROC曲线了。而ROC曲线下方的面积,即为AUC值,一般模型的AUC在0.5到1之间,AUC越高,模型的区分能力越好。


AUC也存在一些缺陷:


1.忽略了预测的概率值和模型的拟合优度;

2.AUC 反应的信息过于笼统,无法反应实际业务中关心的指标;

3.AUC 对 FPR 和 TPR 两种错误的代价同等看待;

4.AUC 没有给出模型误差的空间分布信息;

5.AUC 的 misleading 的问题:可能存在两个模型的 AUC 相等,但其在不同区域的预测能力是不同的。



03

KS与AUC的区别


KS值是能找出风控模型中差异最大的一个分段,因此适合用于cut_off,像评分卡就适合用KS值来评估。但是KS值只能反映出哪个分段是区分最大的,而不能反映所有分段的效果,因此同时还要关注AUC值。AUC值一般在0.5到1之间,值越大表示模型判断准确性越高,即越接近1越好。


如果负样本对业务影响极大,那么区分度肯定就更重要,此时KS比AUC更合适用作模型评估,如果没什么特别的影响,用AUC评估就可以了。




END

随便看看
本类推荐
本类排行
热门标签

劳动者 交通事故 用人单位 劳动合同 债务人 协议 自诉 房屋 土地 补偿费 案件 债务 离婚协议书 公司 债权人 合同 甲方 最低工资标准 交通 车祸 债权 伤残 条件 鉴定 工资 程序 补助费 拆迁人 刑事案件 兵法 期限 标准 交通肇事 解除劳动合同 财产 补偿金 客户 当事人 企业 法院