论文部分内容阅读
在大数据时代,处理大规模数据的能力是现行的数据库系统所面临的挑战。其中,以社交网络、RDF等以图为建模基础的图数据处理成为亟待解决的问题。子图匹配作为图模型中的基础算法,在社交网络的模式匹配、高分子相似子结构匹配、程序调用序列匹配等领域中有非常广泛的应用。然而子图匹配问题本身属于NP问题,复杂度高、常见算法性能差。针对大规模图数据中存在的子图匹配性能问题,本文提出了在分布式集群中多粒度并行的子图匹配算法,其主要内容如下:首先使用修改查询图为查询树的方式,并提出了查询树的具体筛选方法和策略,解决了在以节点为计算单元上的子图匹配顺序问题,并以此来保证查询过程的性能稳定性。其次提出了多粒度的并行策略,利用集群中机器的相对独立性、数据节点的相对独立性、匹配结果的相对独立性实现了多粒度的并行匹配,充分利用分布式并行环境的计算资源,提高了集群计算能力的利用率,保证了查询过程的性能。最后提出了将中间匹配结果在通信过程简化的方式,通过过滤冗余结果、抽取关键匹配内容、合并匹配信息,降低了网络通信量,提高了匹配过程的查询性能,解决了过量网络通信的问题。通过子图匹配查询实验和RDF应用查询实验表明,本文提出的方法能够在分布式系统中使用更少的通信量以更高效的子图查询能力处理大规模图数据。