基于多分类的个人信用评分模型研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:aa6512048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个人信用评分在信贷领域中非常重要。我国网贷业务发展迅速但风险控制仍有不足。Lending Club公司得益于其精确的信用评分模型曾一度成为全球最大的个贷平台,研究其信用评分规则对国内网贷企业进行风险控制有很大的参考价值。本文选取了 2007-2015年间Lending Club公司的信用贷款违约公开数据,以“信用评级”为响应变量构建模型。国内外对于个人信用评分的多分类模型的研究还很少,以往文献常以“是否违约”为响应变量来构建两分类模型。注意到“信用评级”是Lending Club给出的对于客户贷款申请的评级,它将个人信用细分成A-G七个等级,精准且应用效果好。然而,该评级如何得出是保密的。因此,本文尝试探求出能对“信用评级”进行准确估计的多分类信用评分模型,这对国内网贷企业进行信用评级时具有重要参考价值。建模方面,本文使用的编程语言是python,基于机器学习方法构建多分类信用评分模型。本文先选择了逻辑回归、K近邻、支持向量机、决策树、随机森林以及LightGBM进行模型构建,然后基于Stacking和投票法进一步构建集成学习模型。最后,以准确率和调整的f1得分为衡量标准,分析得出LightGBM模型和以LightGBM、随机森林、K近邻为基分类器,逻辑回归为元分类器构造的Stacking模型表现最好。注意到准确率是各类召回率的加权平均,受辛普森悖论的启发,本文发现数据的平衡性会影响模型间的优劣比较。也就是说,基于准确率,利用平衡测试样本进行模型优劣比较的结果,可能会与应用到总体时不同。本文指出,当总体中各个等级占比相差较大时,可能出现如下现象:平衡测试样本下模型B优于模型A,但在实际应用时模型B却劣于模型A。根据平衡测试样本下的混淆矩阵,以及总体中各个等级占比,本文给出了应用到总体时的准确率的修正公式。本文案例中,各模型在数据平衡与不平衡条件下所得到的准确率排序不变,因此本文所选的最优模型不仅有效而且稳健,未受数据平衡性的影响,是有应用价值的。
其他文献
通过噪声与振动分析、轨枕与道床的连接及道床板强度分析、与相关专业接口分析及短枕式整体道床结构设计,宁天城际高架线采用短枕式整体道床能够有效的减小振动、降低噪声,减
提出了一种曲面网格优化的通用算法,该算法基于一些预先定义的优化准则,将给定的网格曲面优化成为单位网格曲面,定义了两种指导优化过程的优化标准.在优化过程中采用了三种优化
通过对襄阳市100位农民工的深度访谈,了解到两代农民工在家庭生活、职业发展、社会融入、心理期待、价值观念等方面还存在着较大代际差异及政策诉求的变化。认为应从户籍制度
以改造有源滤波器的谐波电流检测为例,提出了在滤波器中实现自适应模糊控制的设计思想.给出了基于天基卫星移动通信网络、用DSP硬件实现的自适应模糊控制网络滤波器结构模块.
图书馆读者服务的实现,应从建立标准化的物质基础、管理体系、规章制度,采用合理服务方式和严格监督方式、建立反馈和评估机制等方面入手.
布鲁氏菌是一类兼性胞内寄生菌,布鲁氏菌基因组学研究表明其缺乏典型的毒力因子,胞内存活和复制是其主要的毒力特征,有学者认为其感染的首要基础在于其长期存留于巨噬细胞的
根据线性化的单模激光输出光强方程,直接计算光强的相关函数,得到光强的功率谱及信噪比的方法,计算了具有δ函数形式关联的两白噪声驱动的单模激光线性模型在输入信号后其输