论文部分内容阅读
P2P网络借贷出现于21世纪初,是在金融行业和互联网技术逐渐成熟的社会背景下发展而来的。它是民间普惠金融和互联网金融的重要组成部分,是小额信贷领域的一种延续和创新,对传统信贷业务结构构成了补充,自出现以来在全球范围内迅速发展。然而我国的P2P网络借贷起步较晚,信用体系的不完善加之相关法律法规的缺失使得该行业存在严重的资金安全隐患。随着大数据时代的到来,从海量数据中提取有用信息,构建有效、可靠的信用风险评估模型对违约情况实现准确预测,提高P2P平台及投资者的风险监控和识别能力,这对促进该行业的健康、稳定发展具有重要的现实意义。虽然在P2P网络借贷信用风险评估方面已有较多的研究成果,但大多数研究都是针对单一模型,并且随着不断地改良,单一模型性能提升的空间已经非常有限。近年来,组合模型因具有更优异的预测效果而备受推崇,但这方面的相关研究还较少。于是,本文分别采用传统的统计学方法Logistic回归和新兴的机器学习中随机森林的方法建立了单一模型,并尝试将单一模型进行组合,本文所用的方法和得出的模型完善了这方面的研究。本文选用美国的Lending Club这一 P2P平台的借贷数据作为实证数据集,先对原始数据进行了预处理,并采用WOE和ⅣV对变量进行了筛选,为后期模型构建排除了不相干变量的干扰,提高了建模效率。接下来先是基于Logistic回归的方法构建模型,在此过程中,针对Logistic回归中自变量易存在多重共线性的问题,分别将主成分分析法和Lasso方法与Logistic回归相结合,构造了主成分分析-逐步回归-Logistic回归和Lasso-Logistic回归模型。结果显示,以Logistic回归为基础模型建立的两种模型效果相差不大,模型的分类效果并不是十分理想,但稳定性很好。然后,又用机器学习的方法构造了随机森林模型,并通过对重要变量的筛选和参数的调整使模型达到了较佳的分类效果,但随机森林模型的稳定性较Logistic回归差很多。于是分别尝试用并行组合和串行组合的方式将Logistic回归模型和随机森林模型进行组合,并通过对单一模型和组合模型的效果进行对比得出,串行模型较好的综合了各单一模型的优点,在能达到较好的预测效果的同时,也在一定程度上降低了模型的不稳定性,综合性能最佳。本文的研究结果表明,本文所构建的组合模型中的串行模型相对单一模型来说,在对P2P网络借贷个人信用风险评估方面具有更好的效果,该研究结果可以作为国内P2P平台以及投资者对借款人进行信用风险评估的参考。