基于Stacking集成算法及信用评分非平衡性数据分析与研究

来源 :浙江工商大学 | 被引量 : 1次 | 上传用户:xzlanxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着我国个人消费信贷业务规模不断扩大,金融领域的风险控制变得至关重要,银行使用信用评分系统对借款人的还款能力和个人信用进行评价和预测。然而贷款后逾期的客户毕竟是少数的,即银行建立信用评分模型使用的数据集未逾期客户样本(正样本)远大于逾期客户样本(负样本),正样本数据量远大于负样本数据量的数据集称为非平衡性数据集。银行使用非平衡性数据集建立的信用评分模型得到的结果会偏向于多数类类别样本(未逾期客户),即容易将少数类类别样本分类错误,对少数类类别样本(逾期客户)的识别率较低。针对以上提出的非平衡性数据集问题,采用SMOTE过采样算法来平衡数据集。SMOTE过采样算法根据数据集中少数类类别样本(逾期客户样本)生成新的少数类类别样本,新生成的样本可能会模糊正负样本的分类边界,降低模型的分类效果。对于新样本会模糊分类边界的问题,提出MODIFIED-SMOTE过采样算法,MODIFIED-SMOTE过采样算法首先剔除少数类类别样本中最靠近分类边界的15%的数据,然后根据剩下的85%的少数类类别样本生成新的少数类类别样本,每生成一条新的样本,使用KNN算法判断新生成的样本是否属于少数类类别,属于少数类类别样本保留,否则丢弃新生成的样本。这样做能够比较有效的避免新生成的样本模糊分类边界,以及避免生成错误样本。从模型的角度出发,本文提出适用于信用评分的SLRA-Stacking(MODIFIED-SMO TE Logistic Random Forest Adaboost Stacking)模型,SLRA-Stacking模型是MODIFIEDSMOTE过采样算法和Stacking集成算法的结合,这样能更加适应信用评分数据集的非平衡性特点;其次从提高集成模型性能的角度出发,综合考虑各单一模型的优缺点,通过组合不同的分类模型实现基分类器的多样性,结合模型预测的概率和原始建模属性变量进行二次学习实现更强的泛化能力。本文选取了5个模型训练数据集,分别是Logistic,随机森林,Adaboost,Stacking和SLRA-Stacking模型,通过对各模型在数据集平衡性处理前后的效果对比得出结论:使用未进行平衡性处理的数据集训练的模型,在逾期客户的分类效果上都比在进行平衡性处理后的数据集上训练的模型效果差,在使用进行平衡性处理后的数据集上训练的模型中SLRA-Stacking测试效果比其它模型要好,模型稳定,泛化能力强。所以SLRA-Stacking能够满足银行个人信用评分的需求,具有一定的实用价值。
其他文献
几年来,经过各方面坚持不懈的共同努力,公众营养问题越来越受到全社会广泛的关注,公众营养产业正在逐步发展形成.继续着力打造有利的宏观环境,促进营养产业的发展,是改善公众
<正>赣府字[2016]15号2016年1月29日各市、县(区)人民政府,省政府各部门:经省人民政府研究决定,任命:江枝英为省政府副秘书长、省政府驻北京办事处主任;黄俭根、肖宜安为井冈
通过学习《高等师范专科二年制教学方案》(以下简称《教学方案》)后,我们结合本校实际,对每门课程时行了认真的、反复的研究,根据本专业的课程特点、师资力量和办学条件,积极
期刊
教学方法是教法与学法的有机结合;教学活动是以学生为主体,教师为导体,以掌握
为了解决由于驾驶员面部早期疲劳特征难以检测,导致汽车驾驶辅助系统无法及时识别驾驶员准确疲劳状态的难题,论文综合运用行驶过程中驾驶员面部状态的光学信息和其心率的光电
隋唐时期,帝王官宦家庭的择婚标准有一定的特点。剖析这些特点,不仅有助于我们认识当时的裙带政治,而且从中可以了解当时的社会崇尚,价值观念等丰富的社会历史内容。本文根据
<正>赣府厅发[2016]81号2016年12月7日各市、县(区)人民政府,省政府各部门:《江西省版权输出奖励暂行办法》已经省政府同意,现印发给你们,请认真贯彻执行。(此件主动公开)江
期刊
俗雅诗是诗苑中一朵奇芭,它不像别的诗那样:要么是阳春白雪,要么是下里巴人,而是俗中有雅,雅中有俗。其作法或先以数字入诗,或先以街巷俚语入诗,或多次使用某一词语,以期给读
基于含水流砂地层竖向直排冻结条件下冻结壁的形成和发展过程,将温度场时空分布情况进行了合理简化,根据单孔稳态导热方程和叠加原理,推导了竖向直排三管冻结壁温度分布计算公式