【摘 要】
:
互联网金融随着大数据的发展应运而生,作为金融业务的核心和基础,风险控制一直以来也备受关注。消费金融可有效提高居民的消费水平和能力,其借款对象具有人群大、额度小、周期短、复杂性强的特点,这使得准确预测借款人是否可能违约变得更加困难。随着人工智能技术的渗透,金融科技可以提供更加精确的风控服务。在理论层面,信贷违约预测是典型的极度不平衡数据下的二分类问题,数据除了具有高维、稀疏的特点外,往往还含有大量噪
论文部分内容阅读
互联网金融随着大数据的发展应运而生,作为金融业务的核心和基础,风险控制一直以来也备受关注。消费金融可有效提高居民的消费水平和能力,其借款对象具有人群大、额度小、周期短、复杂性强的特点,这使得准确预测借款人是否可能违约变得更加困难。随着人工智能技术的渗透,金融科技可以提供更加精确的风控服务。在理论层面,信贷违约预测是典型的极度不平衡数据下的二分类问题,数据除了具有高维、稀疏的特点外,往往还含有大量噪声样本,使得传统的数理统计和机器学习方法不能有效识别出具有潜在违约风险的用户,可能会在经济上造成较多的损失,阻碍国家经济的发展。解决不平衡数据分类问题的常用方法有数据层面的采样方法和算法层面的代价敏感学习,因此本文从以上两类解决方法出发,依托先进的机器学习方法预测可能违约的用户。本文主要工作和贡献如下:1.依托数据挖掘技术,对借款人数据进行了数据清洗、数据变换,使用方差过滤和互信息筛选相结合的特征选择方法确定出36个关于借款人的特征用于进一步研究,保证了选取的借款人特征的有效性。接着,基于LightGBM算法搭建了信贷违约预测模型,并将其与常见的机器学习算法KNN、支持向量机、随机森林等进行对比,实验结果表明,基于LightGBM算法的预测模型在AUC、G-mean、Recall值上显著优于其他模型;2.在数据层面,针对现有大多数算法没有同时考虑合成的少数类中存在噪声样本及类内分布不均衡问题,提出了过采样算法Minority-Kmeans-SMOTE,首先基于KNN算法识别出噪声样本,接着用K-means算法将少数类中的非噪声样本聚类成不同的簇,根据簇内少数类的密度有针对性的过采样,以此缓解类内不均衡。当数据集极度不平衡时,我们将Minority-Kmeans-SM4OTE算法与基于Easy Ensemble思想的下采样算法相结合组成混合采样算法MKSE-LGBM,在KEEL公开数据集及信贷违约数据集上的结果表明,算法MKSE-LGBM可有效提高模型的AUC、G-mean、Recall值;3.在算法层面,传统的交叉熵损失函数在面对不平衡数据分类问题时性能不佳,我们可以通过修改损失函数将代价敏感学习与LightGBM算法结合。具体地,修正LightGBM模型中传统的交叉熵损失函数为不同形式的加权损失函数,实验表明模型效果得到提升。进一步考虑到样本分类的难易程度不同,引入了目标检测领域的焦点损失函数,实验结果表明,焦点损失函数可有效提高模型的AUC、G-mean、Recall值。
其他文献
留守青少年群体在教育方面所凸显出来的问题一直是社会关注的焦点。留守家庭中青少年的成长缺少父母的参与,导致青少年常常处于管教失序的状态。这样的状态往往会使学生的学习态度变差,辍学率不断升高。近年来,学者们开展了许多关于留守青少年教育问题的研究,但研究多集中于考察父母外出务工这一行为对留守青少年学习成绩带来的影响,却很少有学者会关注到留守家庭中家庭资本对青少年教育期望产生的影响。本研究使用“中国家庭追
集市是人类社会发展的产物,伴随着人类社会的发展而进步。早在两晋南北朝时期集市便已具雏形,历经时代的更迭和社会的变迁,集市至今仍旧保持着活力。当前集市这种商品交易形式已深深嵌入我国的经济体系中,充分认识集市不仅具有经济价值同时还具有社会价值。本研究结合文献研究和实地研究两种研究方法,选取平坊镇集市作为田野点展开调查,资料收集方法使用的是文献法、参与观察法和访谈法。本研究旨在描述一个东北农村集市的现状
目的:通过锌转运蛋白家族(Zinc transpoter,ZnT)在小鼠不同组织器官中的表达,筛选出优势蛋白成员,探究该蛋白在组织和精子中的表达情况,并通过构建肥胖小鼠模型和检测临床弱精子症样本,探索调节锌转运蛋白表达的影响因素,最终为男性不育的诊治提供新的思路。方法:首先我们以正常C57小鼠为实验对象,采用realtime PCR技术检测ZnT家族成员在不同器官组织中的m RNA表达水平,筛选出
能源危机和环境污染是如今社会面临的两大问题,已经影响了经济的发展。太阳能是一种取之不尽用之不竭的可再生能源,如何高效利用太阳能已成为许多领域的研究热点。共价有机框架材料(Covalent Organic Frameworks)作为一种新型有机多孔材料具有易于修饰改性和功能化、大的比表面积及孔隙、高的热化学稳定性、低的骨架密度、永久开放的孔道结构、合成策略多样化等独特优势。由于其独特的优势,该材料在
研究背景在临床实践的过程中,医务人员可能经常会面临各种生理性、心理性危害,职业安全感日益缺失。其中,发生频次较高且严重性较大的风险是影响医务人员职业风险感知水平的关键因素,是造成其职业危机感上升的主要推动力。医务人员自感职业风险较高会降低其提供的医疗服务质量,影响医院的长期发展。此外,目前医院关于医务人员的职业风险防范措施实施不到位,对医务人员的职业保护力度不足、深度不够。针对目前医务人员面临的困
研究背景住院医师规范化培训,简称“住培”,是培养合格临床医生,建设高素质卫生人才队伍的一项关键举措,也提升各级医疗卫生机构服务水平,缩小看病就医诊疗差距,实现临床医生培养的标准规范化和同质化的重要途径,这也是我国建立住培制度的初衷和目标。然而,我国建立起严格意义上的住培制度的时间并不长,2013年才真正开始实施这项医疗卫生领域的重大政策,然而任何一项政策制度目标的实现都需要有执行落实这一重要环节的