基于深度神经网络的信贷风控模型构建与应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融产业的不断发展,用户依托互联网平台进行个人贷款的人数在不断增加。由于互联网线上平台天然的不透明性,且国内对于个人征信信息系统的构建不够完善,有效预测用户贷款违约概率成为信贷风控体系构建的核心,从用户贷前日常行为数据中挖掘更多有效信息,提取更多复杂特征变得更为重要。用户原始特征具有稀疏、高维特性,很多字段为分类字段,每个字段与其他字段之间的相关性不明显,人工提取复杂组合特征的工作量大且较为低效,且无法泛化出未曾在训练中出现的组合特征。使用基于深度神经网络和因子分解机构建的DeepFM模型能学习到原始特征数据的复杂相关性,同时学习低阶和高阶组合特征,将复杂特征与用户还款表现的结果有效关联起来。本文首先在公开的Lending Club用户贷款数据集上,构建DeepFM模型验证组合特征学习的增益效果,与已经成功使用在信贷风控模型中的逻辑回归模型和XGBoost模型对比发现,DeepFM模型在AUC评价指标上的表现分别有9%和2%的增益,证明该模型的优势体现在自动学习低阶和高阶组合特征,适用于有多分类字段的数据集。其次,本文对基础DeepFM模型进行改进。由于传统的因子分解机(Factorization Machines,FM)缺乏区别组合特征重要性的能力,为了更有效的学习组合特征权重,在基础模型的基础上引入注意力机制。再增加XGBoost模型作为自动特征选择工具,筛选设定特征重要性阈值以上的特征,输入DeepFM模型进行训练。经过测试对比发现,改进后的模型在原有模型的基础上,在数据集上测试的表现指标有所提升,在特征经过筛选后,减少了输入特征维度,模型训练效率也得到提升。最后,本文将改进后的信贷风控模型基于真实用户贷款数据进行实现,对数据集规模以及数据集的信度和效度进行说明,验证改进模型的应用效果。设计实现了风控模型上线测试系统,系统可完成特征选择、模型训练、模型上线、模型测试功能,将特征选择方法和构建的信贷风控模型应用到实际系统实现中。图41幅,表24个,参考文献33篇。
其他文献
答:基层社会团体按照性质求分,可以分为以下几种类型:1.兴趣型组织。成员形成不同的兴趣型组织,如登山、唱歌、跳舞、钓鱼、风筝等组织。
在空调机组、热泵、冰箱等制冷设备中,由于制冷量较大,干式蒸发器的数量通常不止一个,这些蒸发器往往是由并联盘管组成。如何让每一个蒸发器内制冷剂的流量均匀,是系统设计的
近日,第十四届中国国际粮油产品及设备技术展示交易会在江西南昌举行。中联重科携旗下谷王烘干装备精品亮相,受到粮油加工企业、种粮大户等专业用户的广泛关注。为了满足南方水
以往,国家对生猪经营实行“三统一”,当时,由于国营食品企业纳税多、获利大,所以摊子越铺越大,人员不断增加,不重视提高经营管理水平。自生猪市场放开以后,面对多渠道经营、
数据挖掘技术是一种新的信息处理技术,其目的是从海量数据中抽取潜在的、有价值的数据规律或数据模型。在讨论目前高校学生管理中存在问题的基础上,简单介绍了数据挖掘技术。并
多数据源集成是高校内容管理系统设计的基础和主要难点,针对该问题,基于Hibernate数据访问框架设计了某高校内容管理系统的数据层,对该系统的系统功能分析、数据访问框架设计和
苏东坡《志林》有“措大吃饭”一文,讲两个穷酸的小公务员坐在一起,各自谈起将来的志向,一个说:“我平生不足的就是吃饭和睡觉,以后得志了,就要吃饱了就睡,睡醒了再吃。”另一个说:“我的志向和你不一样,当吃了又吃,吃了再吃,为了吃饭哪还顾得上去睡觉!”  现代人一成小官,就专门谋划着吃饭:一等官,送着吃;二等官,寻着吃;三等官,要着吃。哪怕是小小村官,也是常在酒楼饭店,没钱了卖了土地也去吃。除了吃饭,无
研究目的:MOOC作为一种新兴的大规模的公开的在线课程,是对高等教育理念和方法变革起促进作用的全新的教学模式。MOOC的出现促使运动生理学的教学模式得以深思,它为高校带来
江苏省徐州市民政局日前举行首批社会组织进驻市社会组织培育发展中心孵化基地签约仪式,10家社会纰织现场签约进驻。
一、继续深化管理体制的改革,建立一个功能较强的、结构合理的、适合集体商业固有特点的管理机构。目前集体商业的管理机构,还不能适应集体商业发展的需要。有的县集体商业公