零基础入门金融风控之贷款违约预测挑战赛 - Task1赛题理解
- Task1 赛题理解
-
- 1.1 赛题介绍
- 1.2 赛题数据
- 1.3 预测指标
-
- 1.3.1 混淆矩阵
- 1.3.2 准确率
- 1.3.3 精确率
- 1.3.4 召回率
- 1.3.5 F1 Score
- 1.3.6 P-R曲线
- 1.3.7 KS
- 1.3.8 ROC
- 1.3.9 AUC
- 1.4 评分卡
Task1 赛题理解
1.1 赛题介绍
本次赛题金融风控中的个人信贷为背景,要求参赛者根据贷款申请人的数据信息预测其是否有违约可能,进而判断是否通过此项贷款。
1.2 赛题数据
数据分为train,testA,testB,并经过了关键信息的脱敏。对于大部分字面意思可以理解的字段在此处没有过多理解,对于一些比较陌生的字段,此处进行了一些解析。
字段 | 描述 | 理解 |
---|---|---|
id | 为贷款清单分配的唯一信用证标识 | |
loanAmnt | 贷款金额 | |
term | 贷款期限(year) | |
interestRate | 贷款利率 | |
installment | 分期付款金额 | |
grade | 贷款等级 | |
subGrade | 贷款等级之子级 | |
employeeTitle | 就业职称 | |
employmentLength | 就业年限(年) | |
homeOwnership | 借款人登记时房屋所有权状况 | |
annualIncome | 年收入 | |
verificationStatus | 验证状态 | |
issueDate | 贷款发放月份 | |
purpose | 借款人在贷款申请时的贷款用途类别 | |
postCode | 借款人在贷款申请时的邮政编码前3位 | |
regionCode | 地区编码 | |
dti | 债务收入比 | |
delinquency_2years | 借款人过去两年信用档案中逾期30天以上的违约事件数 | |
ficoRangeLow | 借款人在贷款发放时的fico所属的下限范围 | fico 个人信用评级法,325-620 低; 620-680 中;680-900 高 |
ficoRangeHigh | 借款人在贷款发放时的fico所属的上限范围 | fico 个人信用评级法,325-620 低; 620-680 中;680-900 高 |
openAcc | 借款人信用档案中未结信用额度的数量 | |
pubRec | 贬损公共记录的数量 | |
pubRecBankruptcies | 公开记录清除数量 | 存疑 |
revolBal | 信贷周转余额合计 | |
revolUtil | 循环额度利用率 | |
totalAcc | 借款人信用档案中当前的信用额度总数 | |
initialListStatus | 贷款初始列表状态 | |
applicationType | 个人申请或共同借款 | |
earliesCreditLine | 借款人最早报告的信用额度开立的月份 | |
title | 借款人提供的贷款名称 | |
policyCode | 公开可用的策略-1,新产品不公开可用的策略-2 | |
n系列匿名特征 | n0-n14,为贷款人行为计数特征的处理 |
1.3 预测指标
竞赛采用AUC作为评价指标,Area under curve被定义为ROC曲线下与坐标轴围成的面积。
常见评估指标 | 分类算法 | 金融风控 | 注意事项 |
---|---|---|---|
混淆矩阵 | √ | ||
准确率 | √ | 前提条件:样本均衡 | |
精确率 | √ | ||
召回率 | √ | ||
F1-Score | √ | ||
P-R 曲线 | √ | ||
KS | √ | ||
ROC | √ | √ | |
AUC | √ | √ |
1.3.1 混淆矩阵
TP 真正类:实例是正类,预测为正类 | FN 假负类:实例是正类,预测为负类 |
---|---|
FP 假正类:实例是负类,预测为正类 | TN 真负类:实例是负类,预测为负类 |
1.3.2 准确率
Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=TP+TN+FP+FNTP+TN?
1.3.3 精确率
Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}Precision=TP+FPTP?
1.3.4 召回率
Recall=TPTP+FNRecall = \frac{TP}{TP + FN}Recall=TP+FNTP?
1.3.5 F1 Score
F1?Score=21Precision+1RecallF1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}F1?Score=Precision1?+Recall1?2?
1.3.6 P-R曲线
Precision-Recall Curve
1.3.7 KS
KS(Kolmogorov-Smirnov)
KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。
K-S曲线与ROC曲线类似,不同在于
- ROC曲线将真正例率和假正例率作为横纵轴
- K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
公式如下:
KS=max(TPR?FPR)KS=max(TPR-FPR)KS=max(TPR?FPR)
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。
KS(%) | 好坏能力区分 |
---|---|
20以下 | 不建议采用 |
20-40 | 较好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
1.3.8 ROC
ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。
TPR=TPTP+FNTPR = \frac{TP}{TP + FN}TPR=TP+FNTP?
FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。
FPR=FPFP+TNFPR = \frac{FP}{FP + TN}FPR=FP+TNFP?
1.3.9 AUC
AUC(Area Under Curve)
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
1.4 评分卡
TBC
资料参考链接:
https://zhuanlan.zhihu.com/p/52458668
https://zhuanlan.zhihu.com/p/53694715?from_voters_page=true