基于GAN-XGBoost的信用卡交易欺诈检测模型研究

来源 :杭州师范大学 | 被引量 : 4次 | 上传用户:heyouzhang033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“互联网+金融”的快速发展中,信用卡交易欺诈检测一直是发卡机构关注的重点,也是国内外科研人员研究的重要课题。其中样本不平衡问题是影响欺诈检测准确率的关键因素,且现有的欺诈检测模型检测的准确率还可以再优化提高。为了解决以上两个问题,本文进行了算法融合,采用生成式对抗网络(Generative Adversarial Nets,GAN)和极端梯度提升(EXtreme Gradient Boosting,XGBoost)构建了一个基于GAN-XGBoost的信用卡交易欺诈检测模型。并利用真实的历史交易数据集做对比实验,从而证实该模型具有可行性和有效性。本文主要工作如下:(1)针对交易数据样本不平衡问题,采用了GAN算法进行数据增强,生成少数类新样本,生成过程不需要繁琐的采样序列,摒弃了直接对真实数据的复制或平均,只需直接进行新样本的采样和推断。GAN所生成的数据近似于真实值,有效避免了生成数据不真实性对分类检测准确率的影响。(2)在模型训练过程中,为了避免过拟合、计算复杂度高、适应性弱、分类准确率较低等问题,引用了集成学习算法中的XGBoost算法,该算法加入正则项到目标函数来寻求最优解,平衡模型复杂度,有效避免了过拟合问题,并且可以进行多线程并行计算,可使欺诈检测准确率得到提高。(3)为了突出该检测模型具有高效性,分别做了两组对比实验。其中一组是以XGBoost为基础的不同数据样本平衡方法间作对比,另一组是以GAN为基础的不同分类算法模型间作对比。同时在模型评估过程中,为了能够直观看出分类器性能好坏,本文新增了一个模型评估指标即精确回忆曲线下面积(Area Under the Precision-Recall Curve,AUPRC)进行模型评估。
其他文献
我国受洪水灾害影响严重,洪水灾害每年造成大量经济损失。同时,汛期大量弃水将造成汛后难以将水库蓄水至兴利蓄水位,影响正常兴利供水。随着人们对洪水认知的逐步转变,人类越
MALT淋巴瘤首先由Isaccson和Wright于1983年报道。是WHO淋巴造血系统肿瘤新分类中新分出的一种独立的疾病实体。结外MALT型淋巴瘤约占NHL的8%,其中MALT型胃淋巴瘤占到总胃淋巴
【背景】非酒精性脂肪性肝病(Nonalcoholic Fatty Liver Dnisease,NAFLD)是指除酒精和其他明确的肝损因素外,以肝细胞内脂肪过度沉积为主要特征的临床病理综合征,包括单纯性
文章以官将村元宵节“转九曲”仪式为考察对象,试图以仪式音乐维度切入,考量其作为一种民俗活动的文化接续问题以及由此体现出的深层文化蕴意。文章将“转九曲”仪式置入原生文
小微企业信用风险难以有效度量是银行排斥小微企业的根源,寻找适合小微企业特点的信用风险度量方法是关键。使用混合分析法能够达到认识"较多人的多面性"的目的,克服了定性分析
随着时代的进步与发展,食品安全问题越来越受到社会各界的重视,其中食用油是人们日常生活中的必需品,保障食用油的质量安全尤为重要.然而,近几年来,一系列劣质油品的出现,比
随着全球盐渍化土地面积的不断扩大,土壤盐胁迫成为制约农林业发展的主要因素之一。构树是桑科(Moraceae)构属(Broussonetia)植物,在我国的分布极其广泛,不仅耐盐碱、耐贫瘠
维修差错,轻则影响航空器和地面设施设备的使用安全,重则导致航空器事故,造成生命财产损失。如何避免在航空器维修过程中出现差错已成为航空业界共同努力的目标和方向。
远程监控是指通过通讯线路,运用安装在电梯维修服务中心的服务器(OT[S LINE)对分布在不同位置和地点的电梯进行远程监控。电梯远程监控主要监控加入到网络的电梯的状态,以及
2009年注定是触动中国法治进程的一年,从年初的“躲猫猫”开始.“摔跤死”、“做梦死”等一系列看守所在押人员的“非正常死亡”事件引发了整个社会的广泛关注。现阶段最大的困