大规模语义数据存储优化方案研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:gcq1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着RDF数据的迅猛增长,RDF语义数据集总量已超过800亿,作为W3C标准之一,RDF数据的应用愈加广泛,涉及多种领域。面对大规模语义数据,传统的搜索引擎在实时性方面能力不足,同时,基于搜索引擎直接获取富含语义信息的知识集合面临着很大挑战,因此,针对语义数据的管理,近年来涌现出不少RDF语义数据管理平台,例如jena-tdb、gStore、RDF-3X等等。但由于语义数据的爆炸式增长,现有的主流RDF管理平台主要面临着面向大规模数据处理能力不足,语义查询有效性较低等问题。本文提出了一种面向大规模语义数据知识图谱分布式管理方案,通过最大网格构建索引,利用并行计算框架实现对知识图谱高效地语义查询。为提高对存储空间的利用,本文提出采用哈希码对语义数据编码。为提高语义查询的有效性,本文在RDF语义图中挖掘最大网格,然后基于最大网格构建知识图谱索引结构。为实现大规模语义数据的分布式管理,本文采用DBSCAN聚类算法实现分布式数据划分,将整个RDF语义图划分为多个RDF语义子图。本文采用BORDER边界点检测算法识别语义子图边界点,从而实现边界点关系数据在多个节点中的存储,满足跨节点语义查询的数据关联需求。由于最大网格的强连通性,通过索引可获得的顶点占总顶点数的比重较低,因此,本文针对每个最大网格内的顶点,通过CLARANS聚类算法聚类生成簇以扩展可达实体的范围。根据顶点在语义图中不同位置,分析四种查询场景并针对这些场景构建相应的四种查询模式,以支持基于知识图谱存储的语义数据查询。为保证语义查询实时性,本文采用MapReduce分布式计算框架实现语义数据的分布式查询。最后,通过构造不同查询模式验证了本文提出的大规模语义数据管理方法,实验主要从语义数据编码、知识图谱索引构建、数据划分、可达实体范围扩展以及语义数据查询五个过程进行了验证。在数据集DBpedia 3.9上,采用F1值作为查询有效性度量标准,将本文所提出的方法与四个RDF语义数据查询平台:gStore、NeMa、SLQ、S~4进行了对比分析,实验结果表明,在保证一定的查询性能的前提下,本文提出的方法相比于主流平台在查询有效性上有较大的优势。
其他文献
利用X线衍射仪、比表面积测试仪、扫描电镜和粒径分析仪对未机械活化和经振动磨机械活化后的磁黄铁矿进行分析和表征。在FeCl3-HCl体系中对未机械活化和经机械活化后的磁黄铁
本文是一篇探讨队戏流变的文章。文章在目前对唐宋队舞、队戏研究成果的基础上 ,就以下两点上做出新的探讨 :首先 ,作者把队舞、队戏看作是一种“行”的演出艺术 ,然后再从“
中国细胞生物学学会(Chinese Society for Cell Biology)是中国科学院上海细胞生物学研究所前所长庄孝僡、副所长姚錱和汪德耀、罗士韦、郑国锠等国内著名细胞生物学家于1978年
目的:总结和分析手术联合32P间质内放疗治疗复发性恶性胶质瘤的疗效。方法:对23例复发性恶性胶质瘤患者再次行手术切除肿瘤。其中9例患者术中放置Ommaya囊,术后定期给予32P肿
目的:研究脑胶质瘤病灶与室管膜下区位置关系不同患者胶质瘤的侵袭性与增殖性的差异,探讨脑胶质瘤中类干细胞可能来源及集中的位置。方法:收集经病理确诊为脑胶质瘤的患者36例,按
控制压力钻井是一种可适应的钻井方法,可以用于精确的控制井眼中的环空压力剖面。控压钻井的实现方式可分为井底恒压、泥浆帽、双梯度等类型,针对不同的地质特点选用哪种控压
攀枝花市具有充沛的光热资源和良好的土壤条件,属于烟草种植的最适宜区,但与各市州生态环境存在地域差异、种植方式不同、防治水平有别,导致害虫优势种的发生种类及程度亦各
保险能够促进经济社会的全面协调可持续发展。近年来,作为保险业的一个重要组成部分,农业保险或农村保险成为较多发达国家用来消弱自然灾害或其它隐患给农户带来负面影响的有
乳腺癌是中国女性最常见的恶性肿瘤,其发病率正在逐年增加。降低乳腺癌死亡率和改善患者预后的最佳措施是实现乳腺癌的早期发现、早期诊断和早期治疗。目前,乳腺癌的早期诊断
菜单是餐饮企业与顾客沟通、餐饮营销的重要工具,在餐厅经营中起着举足轻重的地位.传统菜单设计存在很多缺陷,表现在:菜品质量复杂冗余,内容繁杂,使消费者无从选择;菜式陈旧,