论文部分内容阅读
近年来,互联网金融已经是当今社会金融发展的趋势,随着人工智能等技术不断渗透,依靠金融科技主动收集、分析、整理各类金融数据,为细分人群提供更为精准的风控服务,成为解决互联网金融风控问题的有效途径。应用人工智能和大数据等技术对互联网金融用户违约预测,为金融商家提供用户更全面的了解和评估,构建机器学习算法是违约用户预测成功的关键,但是目前研究众多风控模型中,对于金融违约用户预测还存在许多不足之处。本文的主要研究内容如下:1.为提升预测效果,丰富数据信息量,进行数据预处理和特征构建。本文对原始数据进行缺失值处理、时间处理、信息冗余处理后进行数据划分,构建大量特征,并按照特征类型进行特征分群。通过实验分析,验证评估各个特征群的有效性,为特征工程提供广泛思路,对比分析多种特征选择方案,寻找到适合金融场景下用户违约预测特征选择方案。2.为进一步提高互联网金融用户违约预测算法预测效果,进行参数调优、多模型构建与融合。参数对模型扰动大且单模型不具有稳定性,通过参数调优寻找较优参数组合减少参数对模型扰动,构建XGBoost、Cat Boost、GBDT、Light GBM、Random Forest多个单模型,多模型融合发挥各单模型优势,提高用户违约预测算法泛化性能和预测效果。3.以上述特征工程和参数调优、多模型构建与融合方法为核心,设计和实现互联网金融用户违约预测系统,协助企业管理者科学预测。本文数据来源于2018年马上AI全球挑战者大赛用户违约预测提供了2016年4月至2017年4月用户真实贷款消费行为数据,评价指标为用户违约预测AUC(AUC值即ROC曲线下面积,模型越精确AUC值越大)。本文通过数据预处理、特征构建与选择、参数调优将AUC值提升为0.8267,通过多模型融合,预测效果显著,AUC值进一步提升到0.8293。在马上AI全球挑战者大赛用户违约预测AUC值排行榜的1222支队伍排名第一。本文基于上述核心方法,设计并实现互联网金融用户违约预测系统,为金融领域提供更为精准的风控服务。