论文部分内容阅读
随着移动电话的普及,移动电话已经成为人们日常生活中必不可少的工具之一,正是由于其使用的广泛性,使得移动通话记录成为最能反映一个人日常行为的载体,通过对移动通话记录的挖掘,能发现许许多多有用的信息。相比于传统的QQ聊天记录、微博转发记录,移动通话记录能够从时间、空间等多个维度进行分析,分析得到的结果更具有代表性。通过移动通话记录来进行用户通话行为异常识别的研究,可以发现潜在的异常用户,为社会的反恐,维稳提供重要的信息。
本文利用中国移动手机用户在几个小区中为期3个月的通话话单来进行研究,主要介绍了利用复杂网络特征来构建MCG网通话行为特征库、模糊决策树算法、以及特定人员未知号码的识别技术。重点介绍了如何选择构造MCG网的特征库和利用模糊决策树算法来对用户通话行为是否异常进行识别。在构建模糊决策算法的过程中,详细分析了PN、IN、Gain参数对模糊决策树性能的影响,在进行分析比较的基础上,得出了最优的参数。实验结果表明,经过参数选择之后生成的模糊决策树,针对用户通话行为异常的识别,能够减少模糊决策树的层数和叶子节点的个数,达到较高的准确率。
用户通话行为异常识别,是一种采用模式识别的方法,通过对移动通话的话单记录进行分析,在提取通话记录特征库的基础上,采用一种合适的算法来对通话行为数据进行挖掘,并给出识别结果。常用的算法包括朴素贝叶斯算法,人工神经网络和决策树算法,通过分析各种算法的优缺点,发现模糊决策树算法由于采用了模糊理论,在对结果的表示上不是给出清晰的结论,而是通过隶属度来区分,能够非常好的接近人的思维,因此,得出的结果更为可靠。
为了提高识别的准确率,在实验的过程中采用十折交叉验证,通过增加实验次数,可以有效的降低实验误差。实验结果表明,和简单的把实验数据划分为训练集和测试集的方法相比,十折交叉验证方法有效的提高了实验结果的准确率。