不平衡金融交易数据处理和检测识别方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:GWstars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术飞速发展的当代社会,高度发达的金融交易环境使用户的金融交易成本降低、交易手段增加、交易频率增加,使金融交易具有实时化、普惠化等特点,而金融交易数据也完全具备了数量大、增速快、种类多、价值高等大数据的特点,成为了金融交易大数据,但同时也带了新的问题,即金融交易安全性问题。从海量的金融交易中分析和检测非正常交易是一个重要和困难的课题。一方面金融交易数据的数据量极大,传统的很多方法已经越来越不适于海量高频数据的处理和分析,所以需要借助大数据技术。另一方面这些交易数据展现了高度的不平衡性,即非正常交易在所有交易记录中所占的比例很小,这也给数据分析和分类检测带来了阻碍,而目前并没有完善的针对不平衡金融交易数据的处理和检测分类体系。针对以上问题,本文首先对金融交易大数据和不平衡数据的相关理论进行了研究和总结,分析了数据不平衡带来的影响和处理不平衡金融交易数据不平衡性的必要性,综合研究了金融交易数据的分析方法和不平衡数据的处理方法,然后基于过采样方法和特征选择两种角度提出了两种针对不平衡金融数据的处理和分类方法并通过研究其结合方式形成了KS-GA方法框架,该方法最后使用机器学习分类模型对金融交易数据进行建模以有效识别非正常交易。该方法框架首先使用了一种改进SMOTE方法KM-SMOTE进行少数类样本合成,其可以将整个数据集的样本进行聚类,然后通过一定策略在所有聚类空间中找出安全区域,并只在安全区域中进行少数类样本合成。该方法在原理上能有效避免SMOTE等方法可能产生的噪声和模糊分类边界等问题,同时不会扩大孤立点的影响。其次本文提出了一种基于遗传算法设计的特征选择方法FSGA,该方法将每个可能的特征选择结果抽象成遗传算法中的个体,通过遗传操作生成种群,并通过适应度去衡量个体的优劣,通过不断地全局寻优找到适应度最佳的个体即最佳特征子集。基于UCI数据集的验证实验结果证明了这两种方法的作用。最后基于以上方法,本文通过实验和相关理论分析探索这两种方法的正确结合方式,并结合机器学习分类模型的使用,最终形成了本文的KS-GA方法框架。在最后的实际场景应用中,实验使用了真实的信用卡交易数据,两种分类模型和不同参数下的组合实验证明了该方法在处理不平衡金融交易数据方面的作用。
其他文献
学位
学位
学位
学位
学位
近年来全球各种无线终端设备的数量呈爆炸式增加的趋势,致使移动数据的需求增加速度越来越快,现有的通信频段愈发饱和。处于高频段的毫米波通信有着丰富的频谱资源,因此受到了学术界广泛的关注。但是,由于毫米波频率高,波长短,信号在传输过程中路径损耗大,易受阴影影响,严重时可能会导致通信中断。针对这些挑战,学术界的研究者提出了许多方案,其中混合波束成形和大规模天线阵列相结合毫米波通信系统模型成为主流架构并不断
学位
学位
学位
学位