论文部分内容阅读
从19世纪末电话的发明到20世纪移动电话的产生和发展,再到21世纪移动互联网的兴起,电信作为一种通信技术在不断地改变着人们的生活方式,同时也累积了大量的数据。21世纪是一个大数据时代,传统意义上的价格调整,硬件设备升级已经越来越无法适应现代电信行业竞争的需求,所以众多电信企业将竞争领域转移到多年累积的用户和通话数据上。如何从现有的通话记录中挖掘出未知的规律和商业信息,已经成为了一个热门的课题。作为数据挖掘的课题之一,社团发现已经被广泛研究,很多学者在此领域提出了很多新的理论和方法,比如,Kernighan-Lin算法[1],谱平分法[2][3],GN算法[4]等。其中一些算法在实际网络中也表现出了不错的挖掘效果。但是由于算法在效率或者结构上的局限性,导致了算法无法在很多特定的领域获得很好的效果,大部分算法也旨在从准确性和效率之间寻找一种平衡。电信用户构成了一个庞大的社会网络,但这个网络是相对稀疏的,离散点对于传统社团划分算法的效果会带来较大的影响。本文以真实的电信数据为基础,在现有数据挖掘理论知识基础上提出了一种基于社会三角形的网络社团划分方法。先从网络中寻找有三角形关系的用户群体,然后以这些三角形群体为初始社团,根据节点间相似性不断进行社团的扩充,对于那些没有被归入任何社团的点则视作离散点。这样就有效排除了稀疏网络中离散点带来的影响。本文将算法应用到了电信数据中进行测试,并与传统算法效果进行了比较分析。最后分析了算法目前存在的问题,并提出了后期需要进一步研究和改进的方向。