不平衡数据混合采样算法及其在客户流失预测中的应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lewy540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在经济全球化的背景下,国内外企业之间的竞争越发激烈,导致企业获取新客户的成本愈发高昂,而减少长期客户的流失能够有效的增加公司的利润,因此,公司正在将重点从获取新客户转移到保留现有客户群。准确的客户流失预测有助于公司找到潜在的流失客户来减少损失,因此被认为是营销重点。但客户流失在许多行业内都是小概率事件,这意味着公司中留下的客户数量远远超过了流失客户的数量,因此,客户流失预测可以归属于不平衡数据的分类问题,其中流失客户属于少数类数据,而非流失客户属于多数类数据。传统的分类学习算法不能很好的运用于不平衡数据集,从而不能准确的发现潜在的流失客户,给企业带来了大量的损失,减少了企业在行业中的竞争力,不利于公司的长远发展,因此,一个精确的客户流失预测系统对企业来说是十分重要的,为了提高传统的分类算法对少数类的识别率,从而提升客户流失预测系统的预测结果,本文从数据采样算法方向出发,提出了三种混合算法,主要的研究成果如下:(1)提出了一种基于SMOTE的混合采样算法,该算法是为了解决经典的SMOTE算法在合成新样本时容易引起样本分布边缘化与引入噪声的问题。算法首先根据样本标签将训练集中的样本分为多数类数据集与少数类数据集,然后对多数类数据集采用结合聚类的欠采样算法,算法应用少数类样本的个数计算出K值对多数类样本进行KMeans聚类,之后用离簇心较近的样本来代替整个多数类簇,通过降低少数类样本的合成数量来减少噪声样本的生成。然后对少数类样本采用三角中线过采样算法,将合成样本的区域限制在三角形内部,较好的解决了样本分布边缘化的问题。通过与多种采样算法对比,本算法在公开的客户数据集上获得了较好的效果。(2)提出了一种基于DBSCAN聚类的混合采样算法,算法是针对少数类样本的类内不平衡问题,与欠采样算法保留的多数类样本质量较差的问题而提出的。算法首先对多数类样本使用基于数据密度的欠采样算法,使保留的多数类样本具有较高的价值,其次算法通过对少数类进行DBSCAN聚类,来删除噪声数据和离群点,并将余下的少数类样本划分到密度不同的类簇内,然后通过计算类簇的簇密度,将少数类簇划分为密集簇与稀疏簇,对稀疏簇赋予较高的采样倍率,对密集簇赋予较低的采样倍率,通过在类簇中合成新的样本使不同类簇内的样本数量趋于均衡,来解决样本类内不平衡问题。实验结果表明,本算法在公开的不平衡客户数据集上对少数类的识别精度高于其他采样算法。(3)提出了一种应用K近邻的混合采样算法,算法首先对多数类样本使用本章提出的安全区域欠采样算法来删除噪声数据和一部分无用的样本,然后通过欧氏距离计算少数类样本到所有训练样本的距离,并得到离它距离最近的K个样本,通过这K个样本的类型将少数类划分为边界域和安全域,由于边界处的样本对分类作用更大因此赋予较高的采样倍率,并在合成时使用本章提出的插值策略使多数类也参与样本的生成,解决了合成样本的方式过于单一造成新样本质量下降的问题。通过与其他采样算法在公开的不平衡客户数据集比较,本算法获得较好的结果。
其他文献
目的:运用网络药理学技术探讨牡丹皮有效成分治疗过敏性紫癜(Henoch-schonlein Purpura,HSP)的作用靶点及作用机制。方法:首先通过中药系统药理学数据库与分析平台(TCMSP)筛选牡丹皮活性成分及作用靶点,利用Gene Cards数据库和OMIM数据库筛选疾病HSP的靶点基因,并导入Venny 2.1.0取二者交集。然后运用Cytoscape 3.9.0软件构建牡丹皮-活性成分
期刊
目的 建立天麻HPLC指纹图谱,测定天麻素和对羟基苯甲醇的含量,并进行化学模式识别分析。方法 采用HPLC建立不同产地天麻指纹图谱,采用《中药色谱指纹图谱相似度评价系统》进行相似度分析,测定天麻素和对羟基苯甲醇的含量,采用SPSS进行聚类分析(CA),SIMCA软件进行主成分分析(PCA)、偏最小二乘法分析(OPLS-DA),对不同产地天麻进行分类并找出差异标记物。结果 建立了天麻HPLC指纹图谱
期刊
报纸
介绍促进剂CBS的绿色合成工艺。采用硫酸钠溶液作为制浆溶液,利用电位计控制反应液氧化电势,通过优化反应体系氧化强度来提高双氧水法合成促进剂CBS的收率,并利用自有水处理技术实现废水和废盐的回收利用;当氧化电势控制在-150~-100 mV时,促进剂CBS收率达到93.6%,纯度达到99.4%,与次氯酸钠法合成促进剂CBS的收率相当,解决了双氧水法合成促进剂CBS收率低及次氯酸钠法合成废水处理成本高
期刊
随着当前社会生活的丰富和扩展,数据所呈现的结构也变得越来越复杂。如何有效地处理和应用这些复杂的结构化数据已经成为研究人员面临的严峻挑战。图(Graph)作为一种常用的数据结构,可以描述事物之间的复杂联系,因此越来越多的新兴技术领域开始用图结构来表示复杂的数据。例如,在生物技术领域,图结构被用来描述蛋白质的内部结构。受卷积神经网络的启发,图卷积网络(Graph Convolutional Netwo
学位
《保健功能释义(健康教育核心信息)》提出:“脑和神经系统通常从膳食获取必要的营养物质,缺乏这些营养物质不利于生命早期脑和神经系统的发育,影响正常认知功能的发挥。因此,改善与记忆有关膳食营养物质的供给可起到辅助改善记忆的作用”。研究表明,天麻具有较好的神经保护、改善阿尔茨海默症、改善失眠、抗癫痫等作用,并在2019年被纳入食药物质试点名单中,已在我国贵州、云南、四川、重庆、安徽5个省份开展了食药物质
期刊
缬氨酸是一种功能性氨基酸,具有调控蛋白质合成、脂质代谢、葡萄糖代谢、抗氧化防御和免疫等生物学功能。缬氨酸添加是开发畜禽低蛋白日粮的重要手段之一,其在促进畜禽生长、调节畜禽泌乳和产蛋等方面发挥着重要作用。本文通过总结国内外最新研究现状,阐述了缬氨酸的来源、分类、代谢途径、与其他氨基酸之间的相互作用、生物学功能及其在单胃和反刍动物日粮中的应用研究进展,提出目前缬氨酸在畜禽日粮应用中存在的问题,为缬氨酸
期刊
目的探讨代谢综合征及其组分与甲状腺结节发病率的关系。方法本研究为前瞻性队列研究。分析来自中国糖尿病患者恶性肿瘤发生风险的流行病学研究贵阳分中心的数据,基线数据于2011年5月至2011年8月通过整群抽样抽选贵阳市云岩区中40岁及以上常住居民共10140名,并在2014年对以上对象进行随访,通过排除标准筛选后最终纳入6783名基线及三年后随访资料完整的居民为研究对象。基线时对所有研究对象采用问卷调查
学位
学位
目的:本研究旨在探究半胱氨酸丰富跨膜成骨蛋白调控因子1(Crim1)对病理性肥大心肌IK1和Ito离子通道编码基因Kir2.1及Kv4.2 m RNA和其蛋白表达的调控作用。方法:1d龄Sprague-Dawley乳鼠心室肌细胞,培养48 h后用血管紧张素II(Ang II;终浓度0.1μM)、氯沙坦(Los;终浓度10μM)分组干预:(1)Con组:不予以药物干预,继续培养24h;(2)Ang
学位