论文部分内容阅读
随着互联网金融的快速发展,银行越来越重视信用风险管理,降低不良贷款率,判别出存在较大违约风险的贷款客户便显得尤为重要,因此,对客户信用逾期风险的预测一直是金融业研究的重要方向。近年来,客户的不可靠性令银行近几年来的不良贷款率变得十分不乐观。准确评估和预测企业客户的信用风险是中国商业银行迫切需要掌握的一项风险管理功能。在大数据时代到来的背景下,本文根据用户基本属性数据以及下载APP种类的众多数据,实现特征提取并进行数据加权处理,进而利用带惩罚的线性回归来进行预测模型构建,提高对资不抵债客户的违约判别的准确性,实现局部优化,从而改善了对客户商业银行贷款的隐藏风险预测和管控,达到大大降低银行发放贷款的违约风险。针对所搜集的样本数据特征,选取了最适合的惩罚线性回归预测算法,并进行实验分析,以期提高银行的风险管理水平。本课题主要研究的内容及成果如下:(1)通过对互联网行业当中的涉及大数据应用等成熟技术进行调研以及分析,最终确定采用pandas及numpy来进行数据的初步读取和处理,并且对原始数据进行清洗及整理。(2)对于多方面数据整合,选择采用TF-IFD方法对客户下载APP数据进行特征提取,提取完毕后将APP数据与客户基本属性数据进行合并,从而完成数据整合工作。(3)针对贷款违约的不平衡数据集预测出现过拟合的问题,提出了对普通惩罚线性回归算法进行加权处理,并针对不同惩罚系数以及是否加权的四种组合情况进行对比试验验证。最终通过混淆矩阵、精确率、召回率以及准确率对四种情况作出最优选择。