论文部分内容阅读
关系网络是人或其它对象通过相互联系和影响构成的结构或系统,通过对关系网络的研究,有助于发现仅依靠个体信息无法获得的重要信息。关系网络中节点价值计算是对关系网络中的对象重要性评估的研究,在许多领域具有重要意义。随着社会进步,尤其是进入大数据时代,需求不断增长,数据规模和数据复杂度也急剧增长,对针对大规模关系网络的价值计算的研究提出了新的需求和挑战。 有许多研究者开展了相关研究,对价值计算提出了价值评价指标和计算模型,对大规模网络计算提出了高效的分布式图计算框架,但大多数都只提出计算模型,或者只关注图计算系统的设计实现,很少有完整的研究、实现与应用的整体解决方案。本文工作不仅对价值计算方法进行了研究,提出了基于分布式计算技术的价值计算高效实现方法,而且设计实现了大规模关系网络分析系统,并在实际项目中得到了应用。 首先,本文对大规模关系网络价值方法进行了研究,提出了一种结合静态价值计算与动态价值传播的价值计算方法,该方法首先通过节点属性进行静态价值计算,然后通过节点间相似性与节点行为,提出价值传播计算模型,最后将静态计算与动态传播结合形成一个综合模型。通过新浪微博数据上的实验,验证了本文模型和方法的有效性。 其次,基于Spark框架,提出了适合大规模关系网络的分布式价值计算实现。在对分布式图计算技术研究基础上,利用Spark和GraphX框架进行了分布式实现。实验结果表明,本文提出分布式计算方法在亿级规模的关系网络上达到了可实用的性能效果,能够应用于大规模关系网络的价值计算,为应用系统设计奠定了基础。 最后,本文将价值计算的研究成果应用到系统设计中,设计实现了一个层次清晰、可扩展的大规模关系网络分析系统。该系统在实际项目中得到了应用,具有一定的应用价值。