论文部分内容阅读
在信息技术迅速发展的带动下,人类生活的方式发生了很大的改变,生活水平和质量越来越高,与此同时,科技的发展也产生了巨大数量的信息,各类型信息以数据的形式呈指数增长,“大数据”一词开始频繁出现在人们的生活当中。海量数据的背后是丰富的重要信息,这些信息通常为各种决策提供依据,而利用机器学习理论可以帮助人类学习其中蕴藏的有用知识。机器学习方法有很多种,随机森林是其中常见的方法之一。这是一种新型的组合分类器算法,使用性能良好,且广泛应用于多种领域。欺诈是当前信用卡业务的主要风险,由于其造成的损失数额巨大,引发了诸多研究,信用卡反欺诈领域便是当前机器学习研究的热点领域之一。但是,随机森林还存在一些缺陷。一方面,随机地选择特征,减少了数据关联性,但也会使模型训练强度降低。另一方面,在不平衡分类的问题上,使用随机森林模型不能准确地预测结果。这使得随机森林相关的优化问题十分具有研究价值。本文从算法的特征选择和不平衡分类问题两个方面进行了研究,探索其中的改进方法。一方面,在对特征选择问题的改进研究上,首先通过卡方检验得出特征的关联性,然后依据关联性的大小设定一个阈值,从而在阈值前后两个区间上随机抽样选取特征,最后将抽样出的特征集合起来,就是选择出来的特征。另一方面,在对不平衡分类问题的改进研究上,将平衡随机森林的思想与加权随机森林的思想共同考虑进来,扬长避短,从而完成对算法的改进。F1值被用于对实验结果的对比和评估。最后,本文进行了总结,阐述了对随机森林特征选择和不平衡分类问题的改善成果,并指出了后续研究的方向。