基于Stacking集成算法及信用评分非平衡性数据分析与研究

来源 :浙江工商大学 | 被引量 : 1次 | 上传用户：xzlanxing

【摘要】

：

【作者】

：

李帅

【出处】

：

浙江工商大学

【发表日期】

：

2020年01期

【关键词】

：

个人信用评分 MODIFIED-SMOTE Adaboost Stacking SLRA-Stacking

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着我国个人消费信贷业务规模不断扩大,金融领域的风险控制变得至关重要,银行使用信用评分系统对借款人的还款能力和个人信用进行评价和预测。然而贷款后逾期的客户毕竟是少数的,即银行建立信用评分模型使用的数据集未逾期客户样本(正样本)远大于逾期客户样本(负样本),正样本数据量远大于负样本数据量的数据集称为非平衡性数据集。银行使用非平衡性数据集建立的信用评分模型得到的结果会偏向于多数类类别样本(未逾期客户),即容易将少数类类别样本分类错误,对少数类类别样本(逾期客户)的识别率较低。针对以上提出的非平衡性数据集问题,采用SMOTE过采样算法来平衡数据集。SMOTE过采样算法根据数据集中少数类类别样本(逾期客户样本)生成新的少数类类别样本,新生成的样本可能会模糊正负样本的分类边界,降低模型的分类效果。对于新样本会模糊分类边界的问题,提出MODIFIED-SMOTE过采样算法,MODIFIED-SMOTE过采样算法首先剔除少数类类别样本中最靠近分类边界的15%的数据,然后根据剩下的85%的少数类类别样本生成新的少数类类别样本,每生成一条新的样本,使用KNN算法判断新生成的样本是否属于少数类类别,属于少数类类别样本保留,否则丢弃新生成的样本。这样做能够比较有效的避免新生成的样本模糊分类边界,以及避免生成错误样本。从模型的角度出发,本文提出适用于信用评分的SLRA-Stacking(MODIFIED-SMO TE Logistic Random Forest Adaboost Stacking)模型,SLRA-Stacking模型是MODIFIEDSMOTE过采样算法和Stacking集成算法的结合,这样能更加适应信用评分数据集的非平衡性特点;其次从提高集成模型性能的角度出发,综合考虑各单一模型的优缺点,通过组合不同的分类模型实现基分类器的多样性,结合模型预测的概率和原始建模属性变量进行二次学习实现更强的泛化能力。本文选取了5个模型训练数据集,分别是Logistic,随机森林,Adaboost,Stacking和SLRA-Stacking模型,通过对各模型在数据集平衡性处理前后的效果对比得出结论:使用未进行平衡性处理的数据集训练的模型,在逾期客户的分类效果上都比在进行平衡性处理后的数据集上训练的模型效果差,在使用进行平衡性处理后的数据集上训练的模型中SLRA-Stacking测试效果比其它模型要好,模型稳定,泛化能力强。所以SLRA-Stacking能够满足银行个人信用评分的需求,具有一定的实用价值。

其他文献

打造宏观环境促进营养产业发展

几年来,经过各方面坚持不懈的共同努力,公众营养问题越来越受到全社会广泛的关注,公众营养产业正在逐步发展形成.继续着力打造有利的宏观环境,促进营养产业的发展,是改善公众

会议

营养产业宏观环境公众营养

江西省人民政府关于江枝英等同志任职的通知

<正>赣府字[2016]15号2016年1月29日各市、县(区)人民政府,省政府各部门:经省人民政府研究决定,任命:江枝英为省政府副秘书长、省政府驻北京办事处主任;黄俭根、肖宜安为井冈

期刊

井冈山大学驻北京办事处宜安省政府各部门副校长

体育专业教学方案改革初探

通过学习《高等师范专科二年制教学方案》(以下简称《教学方案》)后,我们结合本校实际,对每门课程时行了认真的、反复的研究,根据本专业的课程特点、师资力量和办学条件,积极

期刊

体育专业教学方案改革教学方案高师体育专业语言表达能力中学教师体育理论课教学模式课程体系组织教学能力

2004年4月号文章评比结果

期刊

浅谈中学数学“三环六步”教学法

教学方法是教法与学法的有机结合;教学活动是以学生为主体,教师为导体,以掌握

期刊

中学数学“精讲”以学生为主体教学模式幂函数教学方法职业技术学校教学实践教学法教法与学法

基于面部和心率特征融合的驾驶员疲劳状态识别方法研究

为了解决由于驾驶员面部早期疲劳特征难以检测,导致汽车驾驶辅助系统无法及时识别驾驶员准确疲劳状态的难题,论文综合运用行驶过程中驾驶员面部状态的光学信息和其心率的光电

学位

驾驶疲劳面部特征心率特征特征融合时序性信息

隋唐时期帝王官宦的择婚特点

隋唐时期,帝王官宦家庭的择婚标准有一定的特点。剖析这些特点,不仅有助于我们认识当时的裙带政治,而且从中可以了解当时的社会崇尚,价值观念等丰富的社会历史内容。本文根据

期刊

隋唐时期太平公主武则天旧唐书郭子仪魏晋南北朝帝王婚姻藩镇割据政治地位

江西省人民政府办公厅关于印发江西省版权输出奖励暂行办法的通知

<正>赣府厅发[2016]81号2016年12月7日各市、县(区)人民政府,省政府各部门:《江西省版权输出奖励暂行办法》已经省政府同意,现印发给你们,请认真贯彻执行。(此件主动公开)江

期刊

俗雅诗初探

俗雅诗是诗苑中一朵奇芭,它不像别的诗那样:要么是阳春白雪,要么是下里巴人,而是俗中有雅,雅中有俗。其作法或先以数字入诗,或先以街巷俚语入诗,或多次使用某一词语,以期给读

期刊

郑板桥李调元纪晓岚唐伯虎大柳树巧用数学离情别绪自然天成委婉含蓄乾隆皇帝

斜井冻结壁温度场分布规律研究

基于含水流砂地层竖向直排冻结条件下冻结壁的形成和发展过程，将温度场时空分布情况进行了合理简化，根据单孔稳态导热方程和叠加原理，推导了竖向直排三管冻结壁温度分布计算公式

期刊

斜井冻结法直排冻结温度场计算inclined shaft freezing method direct freezing calculation of

基于Stacking集成算法及信用评分非平衡性数据分析与研究

其他学术论文