论文部分内容阅读
随着经济的发展与科技的进步,我国互联网金融得到了空前的发展,作为其重要模式之一的P2P网贷也顺势崛起。P2P网贷相较于传统借贷,其借贷交易行为的发生不再受限于时间和地点,这在很大程度上提高了借贷交易便捷性和社会资金利用率。然而,本质仍属于金融的P2P网贷在给我国经济注入新鲜活力的同时,也不可避免地出现了诸多风险,其中最严峻、也最受学术界和社会关注的风险为借款人信用风险。因此,如何有效预测P2P网贷借款人信用风险具有重要的理论意义与现实意义。本文基于数据挖掘技术,以Prosper平台借款人公开数据集为例,对P2P网贷借款人信用风险进行了研究。首先,在相关文献研究基础上,对P2P网贷、我国P2P网贷及其发展历史与现状进行简要概述;然后探讨了数据挖掘理论及P2P网贷信用风险相关理论,并构建了以随机森林模型为主的数据挖掘模型;接着,对本文研究数据集进行分析和预处理;再接着运用随机森林模型及其他对比模型如Logistic回归模型、支持向量机模型、朴素贝叶斯模型等,对平台调整前后的借款人数据进行训练和预测;最后就各模型对借款人信用风险综合预测效果做出相关的评价和总结。本文的具体研究结论如下:首先,在P2P网贷借款人信用风险预测控制方法上,各数据挖掘模型均能在不同程度上有效预测借款人信用风险,其中集成学习模型——随机森林模型整体预测效果最优,综合性能最为稳定,可优先用于P2P网贷借款人的信用风险预测。因此,借款人信用风险预测模型的构建和应用能有效推进P2P网贷行业信用风险控制建设。其次,运用随机森林特征选择方法进行数据降维,相较于大多数研究利用主成分分析方法进行数据降维来说,其运算效率更高,特征选择结果更有利于后期模型建立。同时,随机森林在作为特征选择方法时,效果较为良好,它能自动选择出重要性程度高的特征,并将结果绘制成可视化图表。该特征选择方法有利于后期模型的输入变量选择,从而提高模型对借款人信用风险的预测能力,帮助P2P网贷行业更加适应当前稳健金融的发展需求。最后,“信用等级”变量能大大影响模型性能。2009年7月1日后的各模型准确率较7月1日之前大大提升,这说明改善“信用等级”变量可有效提高模型的预测准确率,Prosper平台此次变量调整具有一定效果。因此,P2P网贷平台可聘请专业人员以加强“信用等级”信息的收集和预测,优化借款人信用评估指标,以实现对借款人信用风险的科学预测与事前控制,进而促进平台健康长远发展。