论文部分内容阅读
随着移动通信网络的普及,手机通信已经成为人们信息沟通的主要方式。移动通信网络积累了大量用户数据,包括通话、短信和上网信息等。这些数据能够反映出用户的社交关系,因而可以作为研究社交网络的重要数据源。本文提取了某市用户近一个月的通信数据,并将手机用户抽象为一个顶点,用户间通话关系抽象为网络中的边,构建了一个社交网络,并基于该社会网络,进行社区发现。本文通过对社交网络的特点进行分析,提出了基于分布式表达的方法来表征用户,并通过用户的向量化表示来度量用户相似度,然后通过聚类进行粗粒度的社区发现。在已发现的社区内部,通过张量分解进行多维度的细划分,识别出家庭圈、朋友圈、工作圈和多个兴趣圈,并在细粒度社区内部通过网页排名算法进行用户影响力分析和排名。具体工作如下。(1)提出了基于分布式表达的社区划分方法,对用户进行粗粒度划分。传统方法面临着复杂度高、数据稀疏、划分含义不明确等问题,本文采用分布式表达的方法去表征用户,学习得到用户的向量化表示,将用户关系分布在向量的各个维度上,很大程度上解决了数据稀疏问题,同时效率高,适用于大规模数据。(2)在粗粒度划分的基础上,用张量分解的方式进行多维度社区细划分。多维异构的移动通信数据,让我们能够得到用户的多维信息,将用户划分为各个社交圈,同样为了解决数据数据稀疏问题,用张量分解去预测缺失值,在重构张量的各维度社交圈上进行社区细划分。(3)在多维细粒度社区内部,通过网页排名算法进行用户影响力分析和排名。将网页中链接跳转关系类比到手机用户的通话关系,一个用户被拨打电话次数越多说明他的影响力越大。通过这种影响力分析,能够挖掘出社区内影响力大的用户,进而进行针对性营销,具有重要的商业意义。