论文部分内容阅读
现实世界中的诸多系统可以用复杂网络进行描述,比如万维网、Internet网,社交网络、恐怖犯罪网、论文合作网、蛋白质相互作用网络、金融网络、交通网络、电力网络等。定量分析复杂网络中所有节点的重要程度,从而发现挖掘其中的核心节点,是复杂网络研究中重要问题之一。现有的节点重要性评价方法有度数、介数、紧度、PageRank和K-shell。节点度数只是考虑节点的局部重要性,K-shell粗略地将整个网络中的节点进行分层不够精细,PageRank只在有向网络里有效,介数、紧度依赖于节点之间的最短路径,很多情况下不能挖掘出重要节点。本论文提出的节点影响力模型,可以更有效地挖掘出核心节点,而且将此影响力模型成功应用在社团发现、癌症分类以及聚类分析上面。全文的主要贡献概括如下:(1)提出了节点影响力模型。我们首先提出了节点对单一节点的k度影响力,k是路径长度,并且发现当k趋于无穷大时,该影响力会收敛,同时给出了证明。在证明过程中,我们还发现在全连通的非二部图的网络上,某个节点对其他节点k度影响力在k趋于无穷大时都收敛于同一个值。然后通过Zachary网络、Yeast网络、USAIR美国机场网络和F1ickr图片标签网络上的对比实验,说明节点影响力比现有方法在识别网络中重要节点时更有效。(2)提出了基于节点影响力的社团发现算法。该算法首先就算各节点的影响力然后挖掘各社团核心节点,根据这些核心节点对网络中各节点的L度影响力,得出最终的社团划分结果。在Zachary网络、海豚网络、美国football俱乐部网络、Polbooks网络上的实验表明,节点影响力社团发现算法得到的社团划分结果比现有的GN算法、Newman算法和Louvain算法都更好,与真实社团划分更相似。(3)提出了基于节点影响力的癌症分类算法。与传统分类问题相比,肿瘤基因数据具有维度高、样本数少、分布不平衡等特点。基于节点影响力的癌症分类算法,首先构造出样本数据的相似网络,然后计算出每个训练样本节点的影响力,最后得出每个测试样本与每个类别的相似度,并最终选择相似度最高的类别。在乳腺癌、中枢神经系统肿瘤、结肠肿瘤、前列腺癌、急性淋巴细胞白血病、肺癌上的实验表明,节点影响力分类算法在分类准确率上比支持向量机、K近邻、决策树、CART树、朴素贝叶斯分类都更高。(4)提出了基于节点影响力的聚类算法。该算法首先构造数据点之间的相似矩阵,并将此视作邻接矩阵,然后通过计算每个节点的影响力挖掘出各簇核心节点,最后根据设定的接近长度计算各簇核心节点对每个节点的影响力,并最终得出聚类结果。与现有聚类方法相比,节点影响力聚类算法不需要指定正确的簇个数,而是需要对簇个数上限有大致的预测。通在Spiral螺旋图、Aggregation聚合数据、Flame火焰、Compoind、R15、Iris、Wine、soybean实验表明,节点影响力聚类算法得到的聚类结果比K-means、K-medoids、层次聚类、高斯混合模型以及谱聚类都更接近于真实的簇划分。