论文部分内容阅读
图被广泛地应用于各个领域中,例如交通路网、电子通信网络、社交网络、生物信息网络以及协作网络等。图结构中,边表示顶点之间的关系。图上有许多特制的算法,图查询研究一直受到学术界与工业界的广泛关注。随着信息化时代的到来,各种信息以爆炸模式增长,导致图的规模日益增大。如此大规模的数据量,给图查询处理带来了极大的机遇与挑战。
目前已有的大量图查询算法大多是集中式算法,但随着图数据的指数型增长,传统的索引与查询方法已经不能适用于大图,亟需并行化的解决方法。然而,由于图拓扑结构的复杂性,使得很多图查询处理算法很难并行化以及高效的处理。此外,不同的应用特点需要不同的图数据类型进行建模,但现有的图数据查询处理技术不适用于所有的图模型,因而无法高效地处理不同图类型的查询需求。为此,本文围绕图查询若干关键问题展开了系统而深入地研究,主要包括:
(1)可达性查询。可达性查询是图上的基本问题,在语义网、交通路网路径规划和生物信息网基因控制等方面有着重要的应用价值。针对大规模图,本文研究了普通图上的分布式可达性查询与受限可达性查询问题。此外,现实世界的图通常带有时态信息,例如在通信网络中,通信的时间时常;在交通信息网络中,航空、火车、汽车时刻表的出发时间和到达时间;而现有的图可达性查询算法已经不适用于时态图。鉴于此,本文还探讨了时态图上的分布式可达性查询。
(2)顶点相似性查询。图顶点相似性查询是图数据挖掘的基础,在电子商务、社交网络的推荐和专利分析等方面具有广阔的应用前景。鉴于图顶点以及边通常带有多种多样的度量属性信息,且对应的属性相似性计算方法灵活多样,为了使图中各种各样的度量属性信息能够统一表达与计算,本文定义了一种新的图数据类型一类度量图,并展开了类度量图上的顶点相似性查询研究。
(3)图模式匹配。传统的图模式匹配没有考虑图的时态信息,而时态信息在疾病传染模式检测、社交网络谣言传播、信息扩散以及公共安全犯罪行为侦查方面有着至关重要的作用。因此,本文首次定义了时序相关流图,并基于此研究了时序相关流图模式匹配问题。此外,鉴于真实数据规模越来越庞大且时态图通常分布在多台机器上,本文还探索了分布式时态图上的时序流图模式匹配问题,提出了高效的基于GraphX的分布式时序相关流图模式匹配算法。
目前已有的大量图查询算法大多是集中式算法,但随着图数据的指数型增长,传统的索引与查询方法已经不能适用于大图,亟需并行化的解决方法。然而,由于图拓扑结构的复杂性,使得很多图查询处理算法很难并行化以及高效的处理。此外,不同的应用特点需要不同的图数据类型进行建模,但现有的图数据查询处理技术不适用于所有的图模型,因而无法高效地处理不同图类型的查询需求。为此,本文围绕图查询若干关键问题展开了系统而深入地研究,主要包括:
(1)可达性查询。可达性查询是图上的基本问题,在语义网、交通路网路径规划和生物信息网基因控制等方面有着重要的应用价值。针对大规模图,本文研究了普通图上的分布式可达性查询与受限可达性查询问题。此外,现实世界的图通常带有时态信息,例如在通信网络中,通信的时间时常;在交通信息网络中,航空、火车、汽车时刻表的出发时间和到达时间;而现有的图可达性查询算法已经不适用于时态图。鉴于此,本文还探讨了时态图上的分布式可达性查询。
(2)顶点相似性查询。图顶点相似性查询是图数据挖掘的基础,在电子商务、社交网络的推荐和专利分析等方面具有广阔的应用前景。鉴于图顶点以及边通常带有多种多样的度量属性信息,且对应的属性相似性计算方法灵活多样,为了使图中各种各样的度量属性信息能够统一表达与计算,本文定义了一种新的图数据类型一类度量图,并展开了类度量图上的顶点相似性查询研究。
(3)图模式匹配。传统的图模式匹配没有考虑图的时态信息,而时态信息在疾病传染模式检测、社交网络谣言传播、信息扩散以及公共安全犯罪行为侦查方面有着至关重要的作用。因此,本文首次定义了时序相关流图,并基于此研究了时序相关流图模式匹配问题。此外,鉴于真实数据规模越来越庞大且时态图通常分布在多台机器上,本文还探索了分布式时态图上的时序流图模式匹配问题,提出了高效的基于GraphX的分布式时序相关流图模式匹配算法。