论文部分内容阅读
随着语义网的不断发展以及开放链接运动深入展开,发布在互联网上的RDF数据不仅已达到百亿级三元组规模,而且呈现出几何增长的趋势。有效的管理和查询这些RDF数据,正显得日益重要。传统的单机上针对RDF数据的SPARQL基本图模式查询算法,不能满足RDF数据日益增长的需求。而基于MapReduce分布式计算模型的SPARQL基本图模式查询方法,不能够充分发挥分布式计算的潜力,并行度有待提高。针对该问题,本文提出了一种基于BSP模型的SPARQL基本图模式算法。根据RDF数据是有向图数据的特性以及基本图模式的定义,把整个查询过程分成“匹配”和“迭代”两个阶段,先匹配出每个要查询的三元组模式,然后通过迭代让部分解逐步逼近完全解,最后得到查询结果。根据本文提出的基于BSP模型的SPARQL基本图模式算法,设计并实现了一个SPARQL查询机原型。该SPARQL查询机原型的查询引擎部分采用BSP模型分布式计算框架——HAMA实现。在数据持久层,该SPARQL查询原型机中引入了基于Cassandra数据库存储RDF图数据,以满足RDF数据能够得到有效管理和快速加载的需要。此外,还设计了针对本文提出的基于BSP模型的SPARQL基本图模式算法的特有的缓存机制,提高查询速度。在实验部分,与前人提出的基于MapReduce模型的SPARQL基本图模式算法的查询时间对比实验。实验结果表明,本文提出的基于BSP模型的SPARQL基本图模式算法查询效率得到提升。总的来说,本文提出的基于BSP模型的SPARQL基本图模式算法充分利用了BSP模型的消息机制,相对前人提出的基于MapReduce模型SPARQL基本图模式算法,在并行度上更优。从而可以为大规模RDF数据的快速SPARQL查询提供支持。