论文部分内容阅读
随着大数据时代的来临以及信贷行业的快速发展,金融机构之间的竞争变得愈发激烈。商业银行在金融体系中占据重要的地位,信用风险成为影响商业银行自身发展稳定的主要因素。个人信用评估模型的建立,可以帮助商业银行快速处理大量的信贷申请,减少运营成本。因此,本文旨在构建有效的个人信用评估模型,对比分析一些主要的信用评估模型方法和机器学习方法特点,帮助商业银行更好地对信用风险进行管理。本文研究的数据集来源于国内某商业银行真实信贷数据,包括用户基本信息、借贷信息等。在前期准备中,对借款人相关信息做描述性统计分析、数据清理工作和特征工程如:剔除异常数据、缺失值填充、特征变量衍生等。然后,运用逻辑回归、支持向量机、随机森林、XGBoost和Light GBM五种不同的算法,分别构建个人信用风险评估模型,并对模型进行调参,利用AUC(Area Under Curve)值、召回率等指标对模型进行评估分析。此外,将表现效果最佳的Light GBM输出特征重要性并排序。最后,针对于数据不均衡的问题,利用过采样、欠采样和组合采样方法对数据进行处理,探究不同采样技术对Light GBM模型效果的影响。本文得出如下结论:1、五种模型的AUC值均大于0.75,说明这五个模型都能够利用多维度数据有效地对违约行为进行识别。2、Light GBM在个人信用风险评估中有较好的应用效果,其AUC值为0.8953,召回率、F1值和运行速度均高于其他模型。3、申请时段、工作类型、年龄及贷款产品对Light GBM模型贡献度大,在商业银行的信贷业务场景中,应该重点关注这些变量指标。4、Tomeklinks欠采样、随机过采样这两种对不平衡数据的处理方法在一定程度能够提升Light GBM测试集的AUC值。