分布式图数据库存储层设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wanwan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱和图计算的兴起与发展,对于超大规模的图数据处理分析逐渐成为了业界关注的热点问题。与传统关系型数据不同的是,图数据通过顶点和边来表示实体以及实体之间的关系,从而展现出由点到面的网状结构。在对图数据进行处理时,往往会从一个顶点开始,向周围的顶点和边不断地迭代计算,为了能够支撑超大规模图数据的存储及其相关的数据处理,分布式图数据库应运而生。在现有的分布式图数据库中,通常采用的都是计算和存储分离的架构设计,上层计算层负责对图数据进行查询和计算,下层存储层则负责数据的可靠性存储和一些基础的图查询算子。在图数据处理过程中,图遍历是其最常见的操作,该过程中往往会产生大量的中间结果并且频繁地在计算层和存储层之间交互,从而造成额外的网络开销影响图数据库的处理性能。因此,对于图数据库存储层而言,研究如何在分布式环境中设计并实现原生图存储,减少图数据遍历过程中产生的中间结果对于提升整个分布式图数据库的性能有着重要意义。为了解决上述问题,本文所做主要工作如下:1.设计并实现原生图数据的组织与存储。在以边划分的图分区算法为前提下,将切分后的图数据以子图为单位进行原生图存储,针对图拓扑数据和图属性数据在图遍历过程中各自不同的特点进行设计和存储,实现了一个有良好的性能的原生图存储方法;2.针对现有图数据遍历方法提出优化。为了解决现有图数据库在进行多层图遍历的过程中,中间结果在计算层和存储层频繁进行交互的问题,在存储层设计并实现了算子下沉和中间结果缓存机制,遍历的中间结果无需在计算层和存储层之间进行交互,而是通过控制报文来推进整个图数据计算查询任务,从而达到减少网络开销提升查询性能的目的;3.设计并实现图的分布式存储。充分考虑图数据的邻近性和分布式集群中数据负载均衡,在保证集群高可用的前提下,尽可能的去保证图的邻近性来提升系统的整体性能。设计并实现分布式图数据库的多副本和一致性方法,当集群出现负载不均衡时,整个集群能够自我感知并调整;本文还给出了分布式图数据库存储层的测试报告,测试表明在保证分布式的可靠存储的前提下,对于图遍历的性能对比现有图数据库而言有着明显提升。
其他文献
装修机器人的推广应用是房地产行业提质增效、解决人力资源短缺的重要手段,同时,3D点云是一种获取环境信息的重要数据形式,在机器人、自动驾驶等领域应用广泛。有效理解环境语义信息是装修机器人工作的基础,3D点云数据的语义分割方法研究具有重要的理论价值和现实意义。由于点云数据的非结构化特性以及获取成本高,传统点云处理技术的研究局限于单一领域,点云深度学习研究方兴未艾,现有方法通用性不强,难以实现装修机器人
行人重识别是计算机视觉领域中的研究热点之一,通过指导智能视频监控自动地从不同摄像头中匹配相同行人的图片,在帮助公安机关追踪犯罪分子轨迹、大型商超分析顾客购物意图等方面发挥着重要作用。但是,目前行人重识别还存在着诸多挑战,受到摄像头视角、人体姿态等因素的影响难以一次性查询到所有的正确结果,表现良好的模型迁移到新场景、新领域时准确率会严重降低。本文利用深度学习方法提取行人图像的深度特征,并且针对上述问
随着中国互联网的发展和普及,视频应用的需求得到爆发式的增长,手机直播、网络视频等成为重要的传播媒介和新的互联网经济增长点。无线视频传输是移动互联网时代视频传输的主要方式之一。然而,在无线传输的情景下,移动智能设备能源和无线传输信道都是非常紧缺的资源。现有的解决方案分别是从视频编码和传输协议设计来对无线视频的传输进行优化,但是,现在广泛应用的视频编码方案的帧内预测和帧间预测算法的计算代价过高,对于计
农田水利工程是当代农业发展的根本动力,关系着我国农业能否长远稳定发展,同时对农田水利建设稳定用水、实现水资源利用最大化具有十分重要的作用。然而,笔者在调查中发现,目前农田水利工程规划设计中存在工程规划设计前期没有实地勘察、设计与实际情况差异较大等一系列问题。基于此,笔者深入分析了农田水利工程规划设计中存在的问题,提出了加大施工前的实地考察力度、科学分析农田水利灌溉规划设计、强化农田水利工程的监管力
随着信息化社会的逐渐深入,云计算技术作为计算机领域的前沿技术之一,也在逐渐迈向成熟。在云计算模式中,为用户提供各种服务的通常为虚拟机集群,这些虚拟机是通过虚拟化技术切割物理机产生的。虚拟机集群由云平台统一管理,按需分配的模式不仅简化了管理人员的工作流程,也使资源得到了充分利用,更是推动了桌面云和应用云的普及。用户只需要在本地终端安装云客户端便可借助远程桌面协议轻松访问云端的应用资源和桌面资源。云客
随着知识图谱越来越受到大众的欢迎,各大公司都在争先恐后地把自己的数据存储到图数据库引擎上,与此同时,数据的分析与挖掘也慢慢变得重要了起来。然而对数据的挖掘需要使用大量不同类别的数据进行交叉分析,而不同类别的数据就涉及到了由不同团队负责维护的数据,通常情况下这些数据并不在同一台服务器上,甚至使用了不同的数据库来存储这些异构数据。如果对这些数据进行挖掘则要将这些数据整合起来进行分析。然而,很少有完善的
由于深度学习模型的准确率大大提升,近年来在很多领域发挥了重要的作用,保持高准确率的同时如何提升模型的鲁棒性成为了一个重要的课题。深度学习模型中训练不充分、过度线性化的特性会导致模型对某些样本分类错误,这种样本由攻击者添加了特殊的扰动,且人眼难以辨别,它的存在大大威胁了深度学习的广泛应用,这种样本被称为对抗样本。为了抵御这种对抗样本的攻击,研究者们主要采取了改动模型的网络结构、对抗样本检测和将对抗样
频率选择表面(Frequency Select Surface,FSS)是使用周期性的相同(或存在略微差异)金属结构均匀的排列在某种衬底上实现的周期性阵元,其经常被运用于频率选择器,空间滤波器,和雷达散射截面缩减的应用中,通过单元的周期性排列,可以实现对相位和频率信息的调控和重构。在一些特定的情况下,可以实现与相控阵表面相同的功能,并且相比相控阵天线较为复杂的功分器和馈电网络,加载的大量放大器,移
随着软件系统在现代社会中越来越普遍,如何避免软件缺陷所带来的影响从而保证软件系统的稳定运行也越来越重要。软件缺陷预测可以利用目标项目数据来预测软件系统中哪些部分可能存在缺陷,工程师在此基础上合理安排保证软件质量的有限资源就可以极大地减少缺陷对软件系统的影响。在目标项目可用数据不足的情况下,跨项目缺陷预测(Cross-Project Defect Prediction,CPDP)已经成为了一种预测软
随着大数据的迅速发展,大数据给人们带来巨大经济效益的同时,也为大数据分析和挖掘带来了技术上的挑战。大数据基础平台技术繁琐,特别是依托于X86系列处理平台的计算框架特性各异,接口种类繁多,这极大地提高了基于大数据计算平台的智能业务应用开发者的技术难度。如何提高智能业务应用开发的效率,使得基于大数据平台的应用创新能够根据实际业务需求形成可靠的软件及服务,是摆在各行各业大数据应用创新软件服务商面前的一个