论文部分内容阅读
近年来随着我国个人消费信贷业务规模不断扩大,金融领域的风险控制变得至关重要,银行使用信用评分系统对借款人的还款能力和个人信用进行评价和预测。然而贷款后逾期的客户毕竟是少数的,即银行建立信用评分模型使用的数据集未逾期客户样本(正样本)远大于逾期客户样本(负样本),正样本数据量远大于负样本数据量的数据集称为非平衡性数据集。银行使用非平衡性数据集建立的信用评分模型得到的结果会偏向于多数类类别样本(未逾期客户),即容易将少数类类别样本分类错误,对少数类类别样本(逾期客户)的识别率较低。针对以上提出的非平衡性数据集问题,采用SMOTE过采样算法来平衡数据集。SMOTE过采样算法根据数据集中少数类类别样本(逾期客户样本)生成新的少数类类别样本,新生成的样本可能会模糊正负样本的分类边界,降低模型的分类效果。对于新样本会模糊分类边界的问题,提出MODIFIED-SMOTE过采样算法,MODIFIED-SMOTE过采样算法首先剔除少数类类别样本中最靠近分类边界的15%的数据,然后根据剩下的85%的少数类类别样本生成新的少数类类别样本,每生成一条新的样本,使用KNN算法判断新生成的样本是否属于少数类类别,属于少数类类别样本保留,否则丢弃新生成的样本。这样做能够比较有效的避免新生成的样本模糊分类边界,以及避免生成错误样本。从模型的角度出发,本文提出适用于信用评分的SLRA-Stacking(MODIFIED-SMO TE Logistic Random Forest Adaboost Stacking)模型,SLRA-Stacking模型是MODIFIEDSMOTE过采样算法和Stacking集成算法的结合,这样能更加适应信用评分数据集的非平衡性特点;其次从提高集成模型性能的角度出发,综合考虑各单一模型的优缺点,通过组合不同的分类模型实现基分类器的多样性,结合模型预测的概率和原始建模属性变量进行二次学习实现更强的泛化能力。本文选取了5个模型训练数据集,分别是Logistic,随机森林,Adaboost,Stacking和SLRA-Stacking模型,通过对各模型在数据集平衡性处理前后的效果对比得出结论:使用未进行平衡性处理的数据集训练的模型,在逾期客户的分类效果上都比在进行平衡性处理后的数据集上训练的模型效果差,在使用进行平衡性处理后的数据集上训练的模型中SLRA-Stacking测试效果比其它模型要好,模型稳定,泛化能力强。所以SLRA-Stacking能够满足银行个人信用评分的需求,具有一定的实用价值。