论文部分内容阅读
随着这些年来信息技术的发展,人们在获取数据以及存储数据的能力变得越来越强。海量的数据中往往包含了许多有意义的信息,这些时候就需要利用数据挖掘从这些信息中提炼出现实世界中的一些潜在规律。其中,聚类分析作为数据挖掘的一个重要分支在电商网站商品推荐,银行贷款风险预警,股票量化交易等方面有着十分广泛的应用。随着技术的进一步发展,数据的来源变得更加丰富,数据的维度变得更加的复杂,常规的聚类算法很难取到良好的效果。为了解决高维度数据的聚类问题,子空间聚类被提出并得到的广泛的应用。通过对数据维度的选取和转换,子空间聚类能够检测出隐藏在高维度数据子空间中的社团结构。本文将结合国内外在子空间聚类,社团检测,压缩感知等方面的研究现状,对基于子空间聚类的多关系社交网络社团检测进行深入研究。本文的工作主要包含以下几个方面:1)根据聚类算法的基本概念以及大致流程,深入分析对比了聚类算法中数据降维,相似性度量,聚类结果评价等重要环节的常用方法的优缺点以及应用场景。然后,依据聚类算法原理的不同,比较了几种有代表性的聚类方法,包括基于划分的聚类算法,层次聚类算法,谱聚类,子空间聚类等,并对各个算法的优缺点以及应用场景进行深入分析。2)研究基于子空间聚类的社团检测算法。该方法运用压缩感知理论,计算各数据点相互间的稀疏表示,进而得到各数据点之间的相似度矩阵。然后,通过随机矩阵理论,剥离相似度矩阵中随机因素以及共同因素的影响。最后,通过基于模块度最优的社团检测算法得到数据集中社团的划分。为了验证算法的效果,本文在时序多维数据集和空间多维数据集上进行了两组对比实验,通过将基于稀疏子空间聚类的社团检测算法,与谱聚类和Newman快速聚类算法进行对比,发现该算法在部分聚类度量指标上存在优势,并且在社团的划分上更接近于数据集中的真实划分,显示出了算法在多种数据网络进行社团检测的有效性以及优越性。3)多关系社交网络挖掘系统设计与验证。系统主要包含数据采集预处理模块,数据分析模块,数据结构展示模块等模块,包含了多源异构数据的提取,社团检测分析,以及分析结果的展示等功能。本文除阐述系统的总体结构设计以外,还阐述了各个模块中比较重要的设计,并在最后通过具体的算法实验来验证系统的正确性和有效性。本系统的主要特点在于:通过设计模式的合理运用,让系统满足开放-关闭原则的同时,在多种数据源的接入,多算法集成方面能够表现出更好的灵活性以及可扩展性,并使系统能够更好地满足对于多源异构数据的社团检测需求。