论文部分内容阅读
随着RDF数据的迅猛增长,RDF语义数据集总量已超过800亿,作为W3C标准之一,RDF数据的应用愈加广泛,涉及多种领域。面对大规模语义数据,传统的搜索引擎在实时性方面能力不足,同时,基于搜索引擎直接获取富含语义信息的知识集合面临着很大挑战,因此,针对语义数据的管理,近年来涌现出不少RDF语义数据管理平台,例如jena-tdb、gStore、RDF-3X等等。但由于语义数据的爆炸式增长,现有的主流RDF管理平台主要面临着面向大规模数据处理能力不足,语义查询有效性较低等问题。本文提出了一种面向大规模语义数据知识图谱分布式管理方案,通过最大网格构建索引,利用并行计算框架实现对知识图谱高效地语义查询。为提高对存储空间的利用,本文提出采用哈希码对语义数据编码。为提高语义查询的有效性,本文在RDF语义图中挖掘最大网格,然后基于最大网格构建知识图谱索引结构。为实现大规模语义数据的分布式管理,本文采用DBSCAN聚类算法实现分布式数据划分,将整个RDF语义图划分为多个RDF语义子图。本文采用BORDER边界点检测算法识别语义子图边界点,从而实现边界点关系数据在多个节点中的存储,满足跨节点语义查询的数据关联需求。由于最大网格的强连通性,通过索引可获得的顶点占总顶点数的比重较低,因此,本文针对每个最大网格内的顶点,通过CLARANS聚类算法聚类生成簇以扩展可达实体的范围。根据顶点在语义图中不同位置,分析四种查询场景并针对这些场景构建相应的四种查询模式,以支持基于知识图谱存储的语义数据查询。为保证语义查询实时性,本文采用MapReduce分布式计算框架实现语义数据的分布式查询。最后,通过构造不同查询模式验证了本文提出的大规模语义数据管理方法,实验主要从语义数据编码、知识图谱索引构建、数据划分、可达实体范围扩展以及语义数据查询五个过程进行了验证。在数据集DBpedia 3.9上,采用F1值作为查询有效性度量标准,将本文所提出的方法与四个RDF语义数据查询平台:gStore、NeMa、SLQ、S~4进行了对比分析,实验结果表明,在保证一定的查询性能的前提下,本文提出的方法相比于主流平台在查询有效性上有较大的优势。