电信客户流失预测的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:sw440
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的竞争、新技术的出现、低转向成本、新竞争对手的引入。使获得新客户的成本增高的这一实际情况进一步加剧了客户流失问题。电信数据集通常有数百个描述电话详单和和客户资料的属性。然而,并不是所有的属性都具有重要的预测意义,因此有必要选择最佳的流失预测器,以便提高预测模型的性能。此外,流失通常是一个稀有事件,即正类样本是少数类。在这项研究中使用的数据集中,例如,流失客户占总客户的5.6%,其余都是非流失客户。提出了类不平衡问题,这削弱了一些像决策树的数据挖掘算法的学习。在这项工作中,针对不同的特征子集对客户流失预测的影响进行了研究。数据集包含电话详单、客户资料。完整的属性集被分解成多个子集,这些子集分别是网内电话、国际电话、网外电话、增值业务服务电话、客户通话活动信息、、客户资料。然后评估这些属性子集,来确定他们对预测的重要性。接下来,派生出新的属性分为三类:合同的相关属性、电话模式属性、电话模式变化属性。这样的分类为理解这些属性提供了一个简单的框架。合同相关属性描述的特征是指客户与公司的各种协议或合同,这类属性中派生了“任期”属性,它说明了客户使用该公司服务的时间。电话模式属性所描述的特征是指客户通话模式的趋势,这类属性集包含总呼叫持续时间、总电话数量和总语音电话数。假设当总电话数越高,呼叫持续时间越长,客户就不太可能会流失。电话模式变化属性所描述的特征是指客户电话模式的变化。这类属性包含使用分钟的变化,使用频率的变化,影响范围的变化,用户活动的改变,呼叫网外电话持续时间的改变,呼叫网外电话所占的百分比,语音电话打出的百分比。客户呼叫模式的改变量可以是正或是负。对于一些属性如使用频率的变化,如果改变量是正的,这说明用户在后续的月份中有比较多的电话,因此不太可能在短期内流失。另一方面,对于影响范围的变化,如果改变量是负的,这意味着用户在后续的月份中电话数比较少,,因此客户可能早晚会流失。提取了属性之后,将他们组合起来形成一个子集被称为“新属性”,并将它添加到原始数据集中。然后对所有的子集进行评估。在第一组实验中,将所有的子集进行测试并比较它们的预测性能。在第二组实验中,对修改后的数据集和原始数据集中的所有子集进行测试,以确定是否添加新属性后的流失预测率会比原始数据集的流失预测高。由于每个子集的属性维数比较高,所以采用信息增益滤波器的方法来给每个子集的属性按重要性进行排序,每个子集选择排在前面的60个属性。采用C4.5、朴素贝叶斯分类器和贝叶斯网络三种预测技术通过十倍交叉验证来评价属性。在这种技术下,数据集在每一次迭代中被分为十份,数据集中的九份用作训练集来构建预测模型,剩余的一份作为测试集,执行十次迭代。在每种预测技术下,采用TPR和FPR的平均值来生成ROC曲线。从ROC曲线中计算出AUC值,用它作为评价标准选出流失预测的最好的特征子集。实验结果表明,提出的属性的预测性能比原始属性子集要好。为了解决类不平衡的问题,本论文研究了两种抽样方法。在第一个实验中,采用了欠抽样,方法的原理是将训练集中的多数类进行剔除直到得到理想的样子数量。在保持少数类数量不变的情况下,对多数类从它的10%到100%进行抽样。在第二组实验中,运用SMOTH方法对少数类样本进行过抽样,SMOTE是对少数类进行合成,形成训练集,从而对少数类进行过采样控制。在这组实验中,少数类样本以100%到1000%进行过抽样来产生连续的数据点。在第三组实验中,在抽样从100%到1000%的各个样本大小下,将SMOTH与欠抽样方法结合。在三组实验中,均采用C4.5决策树和朴素贝叶斯分类器通过10倍交叉验证进行性能的评估。对于这二种预测技术,记录TPR和FPR的值来生成ROC曲线,并从中计算出AUC值,实验结果表明,欠抽样下的SMOTE方法能够更好地处理类不平衡问题。
其他文献
异步无线传感网络中的全网广播是一项最基本的网络服务,主要应用于环境监测、软件更新等场景。无线传感网络中的传感节点大多数由电池提供能量,所以网络中的能量有限,而转发数据
近年来,随着信息化向人类社会各个层面的渗透和发展,在企业、科学、互联网等领域均产生并汇集了大量数据,大数据时代已然来临。目前,越来越多的应用领域涉及到大数据的存储和
随着计算机网络技术的发展,网络尤其是Internet给人们的生活和工作提供了极大便利,如电子商务、网上银行等已经十分普及。网络在改变人们的生活方式和提供企业生产效率的同时,也
随着科技的高速发展,以及无线传感器网络在众多领域的广泛应用,无线传感器网络逐渐成为研究热点。因为传感器节点能量受限,而MAC协议直接关乎节点的能量使用效率,所以研究如何在M
随着最近几年互联网和电子商务产业的兴起,海量的物流需求对物流企业提出了巨大的挑战,传统的物流企业仓库运作模式已经无法适应庞大的物流订单吞吐需求,为此美国电子商务公
反skyline查询常用在数据挖掘和决策支持系统中,用于数据的多准则优化。但目前有关反skyline查询的研究仅限于集中式数据,分布式数据上的反skyline查询尚未有文献涉及。在现实
伴随着信息化时代的来临,形状检索技术作为信息检索的重要组成部分,受到了越来越多的关注。曲率尺度空间(CSS)形状检索技术是根据尺度空间思想和理论发展出来的一门技术,自提出
图像中的文字信息对于我们的日常生活具有非常重要的价值,为我们或者计算机理解生活场景提供了重要的线索。在实际应用中有许多需要使用复杂场景图像中文字信息的场合,例如智
当今社会,网络视频会议以及高清视频点播等应用广泛流行,这就对视频编解码的编解码质量以及编解码速度提出了更高的要求。与此同时,视频分辨率急剧增加,从QCIF(176×144)到当今最
贝叶斯网络模型是不确定性知识表示和建模领域中最经典、最有效的模型之一。贝叶斯网络自然地将概率论与图论相结合,既能反映出观测数据的内在规律,其图形化的表示方式又具有