数据挖掘技术在电信领域中的研究及应用

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:qqqqq721106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济的发展,电信市场的竞争越来越激烈,客户流失也成为了各个企业逐渐关注的问题。相对挽留老客户而言,拓展新客户的成本更高,所以解决客户流失问题刻不容缓。通过数据挖掘的方法,识别出具有流失意向的客户,分析客户流失的原因,可以使运营商及时采取挽留措施,进而避免因客户流失所造成的巨大损失。本文首先对数据进行了初步探索,通过可视化的方法探究数据的内在规律。其次,对数据进行预处理,包括将多个表进行汇总、删除无关特征、特征编码、数据标准化以及SMOTE数据平衡化处理。最后,本文从以下三个方面对数据进行建模:单一模型主要使用逻辑回归、决策树、SVM、KNN模型;集成模型主要使用随机森林、XGBoost、Ada Boost、Light GBM、CatBoost模型;组合模型,分别采用Hard Voting、Soft Voting、Stacking方式将SVM、Light GBM、CatBoost三个模型进行组合。以上所有模型都利用网格搜索和绘制学习曲线的方法调整参数,使得模型效果有所提升,并利用F1-Score作为主要评估标准,召回率作为参考来对模型进行整体评估。结果显示,单一模型中SVM模型表现最好,集成模型中CatBoost模型表现最好,组合模型中Hard Voting组合方式最好。将模型进行对比,发现集成模型的表现较单一模型有了很大提升,CatBoost模型的F1-Score为0.8825,召回率为0.8779,AUC为0.9496,相较于SVM模型,F1-Score、召回率和AUC分别提高了1%,1.4%,1%。组合模型中Hard Voting组合方式与CatBoost相比,F1-Score、召回率和AUC均有提升,分别提高了0.13%,0.5%,0.04%。结果显示,使用组合模型可以对客户的流失进行准确判断。在客户流失影响因素的探究中,上网安全、合同类型、月租、月使用量以及留存期对客户流失影响较大,性别、是否为无纸化支付、是否有伴侣等因素对客户的流失影响较小。
其他文献
本文分别采用了CNTs羧基化处理+机械球磨和直接机械球磨分散制备了CNTs/ZA27复合粉末,利用热压烧结工艺成功制备了CNTs/ZA27复合材料。通过微观组织观察,物相成分检测,力学性能试验,对比分析了两种分散方式对CNTs分散行为的影响,系统研究了球磨工艺、烧结温度及CNTs含量对复合材料的微观组织和力学性能的影响,并探讨了界面结合情况及强韧化机制。对于CNTs羧基化处理+机械球磨,相比于未处
推进乡村振兴是党中央巩固拓展脱贫攻坚成果、加快农业农村现代化的重大决策部署。十九届中央纪委六次全会明确提出,要加强对乡村振兴重点项目推进情况监督检查。四川省各级纪检监察机关切实提高政治站位,牢牢把握乡村振兴这个“国之大者”,加强基层党风廉政建设,做实做强基层监督,精准执纪问责,强力推动党中央巩固拓展脱贫攻坚成果同乡村振兴有效衔接决策部署落地落实。
期刊
目前,国内外一些著名学者在随机动力系统方面做了大量的研究工作,但是在这些研究中,随机格点系统的白噪声通常是线性加性的或线性乘性的.因为对于具可加或可乘白噪声的随机方程可以将其转化为确定性方程进行研究.然而,目前还没有关于将具非线性噪声的随机方程转换为确定性方程的方法.受到王碧祥2019年在JMAA发表的文献的思想启发,本学位论文通过使用弱拉回均值随机吸引子的概念研究了具非线性噪声的非自治Fitz
碳纤维增强树脂基复合材料(Carbon Fiber Reinforced Polymer;CFRP)是一种优异的新型材料,具有密度小、强度高、韧性强、重量轻、耐腐蚀、耐疲劳等特点,广泛应用于航空航天、高端装备、军工等工业领域及民用市场。碳纤维增强树脂基复合材料经成型之后一般要面临二次加工,传统的机械切削加工方式存在着刀具磨损过快、材料结构破坏、尺寸难控制等诸多缺陷。考虑到激光作为一种无接触加工方式
随着网络信息时代的卷入,各种手机终端的普及,方便了人们的沟通交流,逐渐受到了广大网民的青睐。政府部门为了适应网络信息时代的生态环境,了解公众诉求,也实现了通过手机终端与广大网民互动。其中,政务微博演化成一种新兴的自媒体交流渠道,正在慢慢成为广大用户的“交心”平台,它通过与网友之间建立一个网络化模式的参政、议政和问政平台,使得社情民意的收集、倾听、发布更加的方便,更加快捷方便的服务大众。同时在促进民
刺激响应型聚合物由于其独特的性能而备受关注,它们在药物输送、生物传感器、生物医学设备等许多领域存在潜在的应用。其中的氧化反应型聚合物在氧化物种如活性氧(ROS)存在时,可以经历构象或性质(例如次级结构和生物活性)的变化,因此氧化反应型聚合物也引起了人们对生物医学应用的极大兴趣。本文主要研究了不同构型及侧基结构的聚半胱氨酸衍生物的刺激响应性质,以及在氧化物种存在时其构象和刺激响应性质的变化。基于此,
许多常见疾病都与基因有关,了解基因的功能机制可以从根本上治疗和预防这些复杂疾病,致病基因研究对于临床医学及药物靶标研发等都具有重要意义,传统的生物学实验耗时耗力,利用计算机技术研究基因疾病关联问题具有独特优势,已逐渐成为主要研究方法。基于致病基因的相似基因更可能与疾病有关这一假设,目前已经有许多相关算法被提出。然而很多方法只利用了数据的线性特征,而基因疾病数据信息较为复杂,可能包含许多非线性关系。
科技的飞速发展给人们的生活和工作都带来了极大的便利,为了方便信息的传递,许多文件的存在形式由以往的纸质版变为电子版或图片。目前,各种成熟的修图工具让普通人也能够对重要文件上的印章进行肆意修改,这会对个人或社会造成严重的声誉影响和经济损失。使用某种工具从一张图像上将印章图案取出,然后粘贴到另一张需要此印章的图像上是伪造印章行为,这种伪造方式叫图像拼接,是图像篡改方式中的一种。鉴于深度神经网络具有强大
随着市场经济全球化进程加快,市场竞争日趋白热化,更多的企业已经清晰的认知到薪酬在企业管理中重要度,因此企业将制定适合自身发展阶段的薪酬方案的重视程度也提高到了空前高度。当然薪酬方案的制定不是一蹴而就,也不可能是一个长期固定不变的,而应该随着企业及市场的变化而随之变化,根据企业自身发展而不断调整与优化,并严格予以落实和执行。ZY公司是一家经营汽车检测服务、驾校、房地产、贸易等多种业务于一体的民营中小
空气如同水资源一样,都是我们赖以生存的必需品。本文通过Python爬虫获取长株潭地区2013年12月1日-2020年12月31日的空气数据与气象数据。对数据进行预处理后,使用Pearson相关分析与主成分分析方法对长株潭地区空气质量进行评价,并运用多种机器学习模型对长株潭地区空气质量进行预测,得出结论如下:1.长株潭城市各类等级天数主要为右偏分布,高于轻度污染的天数偏少。在观察期内长株潭城市中株洲