面向大规模RDF数据的混合分布式存储方案研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:6ri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着链接数据(Linked Data)的发展,语义Web上的RDF数据集呈现大规模爆炸式增长,其中包含的语义信息越来越丰富。为了对大规模RDF数据进行快速存储和高效的查询管理,研究新型RDF数据存储方案,成为RDF数据管理的重要问题。传统的RDF数据存储方案主要基于硬盘驱动器(HDD),单纯基于HDD的大规模RDF数据存储的读写性能,已经达到了瓶颈。固态硬盘驱动器(SSD)的出现,给大规模数据存储提供了一个契机。本文针对大规模RDF数据的存储管理,提出了一种基于SSD和HDD的混合分布式数据存储方案HDStore。在本文方案中,单个的固定大小的Journal-File采用只追加模式把数据项存储在SSD上,以支持RDF三元组数据在构建数据索引过程中的快速读写操作。对应的多个Segment-File存储在HDD上,针对大规模数据索引项的进行持久化存储。同时,在三层存储结构上采用最近最少置换算法(LRS)策略,以低容量的SSD作为二级缓存,利用SSD随机写性能高于HDD写性能这一特点,在索引分片Sharding置换出内存时,通过索引分片在SSD缓存上的一系列的build、split、move、merge数据操作,进而优化系统I/O性能并控制硬件成本效果,最终实现针对大规模RDF数据的分布式混合存储方案。本文的理论分析和实验结果表明,在同等硬件设备、数据集等环境下,针对大规模RDF数据,本文提出的HDStore混合分布式存储方案具有最优的数据加载性能和查询性能,尤其是RDF数据加载性能,相比于传统的基于HDD数据存储方案提高大约15%。
其他文献
我国是世界上人口最多的国家,所以,我国的人口及计划生育工作一直是我国关注的重点。人口及计划生育工作的好坏将会影响到我国经济的发展,社会的进步以及环境的可持续发展等
目的探讨幽门螺杆菌感染与冠心病的关系。方法选择68例冠心病的患者68例和健康体检者56例,分别作为冠心病组和健康对照组;用14C尿素呼气试验测定入选对象的幽门螺杆菌感染情
目的探讨静吸复合麻醉对乳腺癌根治术患者T淋巴细胞亚群的影响。方法2010年5月至2018年6月选择在我院择期行乳腺癌根治术患者156例,根据随机数字表法把患者分为观察组与对照
为了认真贯彻中共"三个代表"重要思想和十六大精神,全面落实<中共中央关于进一步繁荣发展哲学社会科学的意见>和甘肃省委<实施意见>精神,张掖市委宣传部、市社科联对全市社会
结合能够准确刻画相机物理特性的系统误差模型——Australis像差模型,对共线方程进行了改化。基于摄影测量光束法区域网平差理论,设计了相机检校的技术流程,利用自行开发的检
近年来,结合深度特征的相关滤波算法由于较高的跟踪精度在视觉跟踪领域受到了广泛的关注.对训练样本的周期性假设一方面提高了计算效率,但是也引入了边界效应,限制了算法性能的进一步提升.通过对深度特征表达能力的深入挖掘,本文提出了一种新的跟踪框架.由于深层特征具有良好的语义信息,选取VGG网络第五层卷积特征提取目标的空间可靠区域,将该区域信息用于对样本进行裁剪并引入目标函数,建立空间约束模型,接着采用AD
为探究头孢菌素菌渣无害化处置与肥料化利用过程中残留的头孢菌素C对蔬菜生长的毒理效应,通过恒温保湿培养法,采用生菜(Lactuca sativa Linn.var.ramosa Hort.)、油麦菜(Lact
从资源禀赋和国内外市场需求趋势分析,草畜产业是陇东地区最具发展潜力、覆盖面最广、全局性最突出的农业核心主导产业.遵循科学发展观,全面分析,抢抓机遇,克服困难,大力推进
"共商共建共享"理念是后金融危机时代全球治理的新理念:它是摒弃现实主义和国家主义的新价值,是弥补全球治理失灵的新选择,是顺应新兴市场国家期待的新方案。其核心要义是全
通过对临沭县蓝莓产业的调研,总结分析了临沭县蓝莓产业发展现状、存在问题,提出了相应的对策建议,以期为临沭县蓝莓产业的可持续发展提供参考。