论文部分内容阅读
在信息技术飞速发展的当代社会,高度发达的金融交易环境使用户的金融交易成本降低、交易手段增加、交易频率增加,使金融交易具有实时化、普惠化等特点,而金融交易数据也完全具备了数量大、增速快、种类多、价值高等大数据的特点,成为了金融交易大数据,但同时也带了新的问题,即金融交易安全性问题。从海量的金融交易中分析和检测非正常交易是一个重要和困难的课题。一方面金融交易数据的数据量极大,传统的很多方法已经越来越不适于海量高频数据的处理和分析,所以需要借助大数据技术。另一方面这些交易数据展现了高度的不平衡性,即非正常交易在所有交易记录中所占的比例很小,这也给数据分析和分类检测带来了阻碍,而目前并没有完善的针对不平衡金融交易数据的处理和检测分类体系。针对以上问题,本文首先对金融交易大数据和不平衡数据的相关理论进行了研究和总结,分析了数据不平衡带来的影响和处理不平衡金融交易数据不平衡性的必要性,综合研究了金融交易数据的分析方法和不平衡数据的处理方法,然后基于过采样方法和特征选择两种角度提出了两种针对不平衡金融数据的处理和分类方法并通过研究其结合方式形成了KS-GA方法框架,该方法最后使用机器学习分类模型对金融交易数据进行建模以有效识别非正常交易。该方法框架首先使用了一种改进SMOTE方法KM-SMOTE进行少数类样本合成,其可以将整个数据集的样本进行聚类,然后通过一定策略在所有聚类空间中找出安全区域,并只在安全区域中进行少数类样本合成。该方法在原理上能有效避免SMOTE等方法可能产生的噪声和模糊分类边界等问题,同时不会扩大孤立点的影响。其次本文提出了一种基于遗传算法设计的特征选择方法FSGA,该方法将每个可能的特征选择结果抽象成遗传算法中的个体,通过遗传操作生成种群,并通过适应度去衡量个体的优劣,通过不断地全局寻优找到适应度最佳的个体即最佳特征子集。基于UCI数据集的验证实验结果证明了这两种方法的作用。最后基于以上方法,本文通过实验和相关理论分析探索这两种方法的正确结合方式,并结合机器学习分类模型的使用,最终形成了本文的KS-GA方法框架。在最后的实际场景应用中,实验使用了真实的信用卡交易数据,两种分类模型和不同参数下的组合实验证明了该方法在处理不平衡金融交易数据方面的作用。