论文部分内容阅读
客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的竞争、新技术的出现、低转向成本、新竞争对手的引入。使获得新客户的成本增高的这一实际情况进一步加剧了客户流失问题。电信数据集通常有数百个描述电话详单和和客户资料的属性。然而,并不是所有的属性都具有重要的预测意义,因此有必要选择最佳的流失预测器,以便提高预测模型的性能。此外,流失通常是一个稀有事件,即正类样本是少数类。在这项研究中使用的数据集中,例如,流失客户占总客户的5.6%,其余都是非流失客户。提出了类不平衡问题,这削弱了一些像决策树的数据挖掘算法的学习。在这项工作中,针对不同的特征子集对客户流失预测的影响进行了研究。数据集包含电话详单、客户资料。完整的属性集被分解成多个子集,这些子集分别是网内电话、国际电话、网外电话、增值业务服务电话、客户通话活动信息、、客户资料。然后评估这些属性子集,来确定他们对预测的重要性。接下来,派生出新的属性分为三类:合同的相关属性、电话模式属性、电话模式变化属性。这样的分类为理解这些属性提供了一个简单的框架。合同相关属性描述的特征是指客户与公司的各种协议或合同,这类属性中派生了“任期”属性,它说明了客户使用该公司服务的时间。电话模式属性所描述的特征是指客户通话模式的趋势,这类属性集包含总呼叫持续时间、总电话数量和总语音电话数。假设当总电话数越高,呼叫持续时间越长,客户就不太可能会流失。电话模式变化属性所描述的特征是指客户电话模式的变化。这类属性包含使用分钟的变化,使用频率的变化,影响范围的变化,用户活动的改变,呼叫网外电话持续时间的改变,呼叫网外电话所占的百分比,语音电话打出的百分比。客户呼叫模式的改变量可以是正或是负。对于一些属性如使用频率的变化,如果改变量是正的,这说明用户在后续的月份中有比较多的电话,因此不太可能在短期内流失。另一方面,对于影响范围的变化,如果改变量是负的,这意味着用户在后续的月份中电话数比较少,,因此客户可能早晚会流失。提取了属性之后,将他们组合起来形成一个子集被称为“新属性”,并将它添加到原始数据集中。然后对所有的子集进行评估。在第一组实验中,将所有的子集进行测试并比较它们的预测性能。在第二组实验中,对修改后的数据集和原始数据集中的所有子集进行测试,以确定是否添加新属性后的流失预测率会比原始数据集的流失预测高。由于每个子集的属性维数比较高,所以采用信息增益滤波器的方法来给每个子集的属性按重要性进行排序,每个子集选择排在前面的60个属性。采用C4.5、朴素贝叶斯分类器和贝叶斯网络三种预测技术通过十倍交叉验证来评价属性。在这种技术下,数据集在每一次迭代中被分为十份,数据集中的九份用作训练集来构建预测模型,剩余的一份作为测试集,执行十次迭代。在每种预测技术下,采用TPR和FPR的平均值来生成ROC曲线。从ROC曲线中计算出AUC值,用它作为评价标准选出流失预测的最好的特征子集。实验结果表明,提出的属性的预测性能比原始属性子集要好。为了解决类不平衡的问题,本论文研究了两种抽样方法。在第一个实验中,采用了欠抽样,方法的原理是将训练集中的多数类进行剔除直到得到理想的样子数量。在保持少数类数量不变的情况下,对多数类从它的10%到100%进行抽样。在第二组实验中,运用SMOTH方法对少数类样本进行过抽样,SMOTE是对少数类进行合成,形成训练集,从而对少数类进行过采样控制。在这组实验中,少数类样本以100%到1000%进行过抽样来产生连续的数据点。在第三组实验中,在抽样从100%到1000%的各个样本大小下,将SMOTH与欠抽样方法结合。在三组实验中,均采用C4.5决策树和朴素贝叶斯分类器通过10倍交叉验证进行性能的评估。对于这二种预测技术,记录TPR和FPR的值来生成ROC曲线,并从中计算出AUC值,实验结果表明,欠抽样下的SMOTE方法能够更好地处理类不平衡问题。