基于SparkSQL的数据划分算法设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wq123sd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科学技术的高速发展和互联网的迅速普及,互联网和物联网上的数据量都在爆炸性的增长,传统的单节点的数据管理系统,已经无法满足日益增长的计算和存储需求。在这样的背景下,Hadoop和Spark等分布式的系统和框架相继涌现。这些具有良好计算性能和环境适应性的分布式计算框架,能够较好的利用分布式的集群来对海量的数据进行存储和计算,得到了广泛的应用。然而,这两种框架在数据分配方式上都存在着不足,本文基于一种单表谓词关系的数据划分算法,提出了一种多表谓词关系的数据划分算法。本文首先对Spark的工作原理和两种数据分配策略进行了简要的研究和分析。以此为基础,本文研究了一种单表谓词关系的数据划分算法:基于谓词引用的分区模式。基于单表谓词关系的数据划分算法,本文提出了一种多表谓词关系的数据划分算法:多表谓词分区模式。针对这两种分区模式的定义,为了便于表示这两种分区模式,针对这两种不同分区模式提出了分区模式图的概念。基于两种不同的分区模式图,在Spark上设计和实现了相应的数据加载和分区算法,分别对阐述了这两种分区模式是如何对数据查询操作中的等值连接进行优化的。针对后一种分区模式,为了便于实验测试,本文提出了一种用于生成分区方案序列的贪心算法。最后,通过了大量的对比实验,验证本文中两种分区模式的有效性,对比分析了不同分区策略下的数据查询时间、数据加载时间、数据空间效率等相关性能指标。本文的实验结果表明,我们提出的算法能够提高分布式数据库上的查询效率。在结论中,对本文的研究内容进行了总结,分析了当前研究的不足并为后续研究提出了一些思路。
其他文献
随着我国高速列车运营时速的不断提升,轮轨之间的作用力愈加强烈,加剧了轮轨间的磨耗,不仅会影响列车的动力学性能,而且还降低列车的安全性和舒适性,影响乘客的乘坐体验,缩短车体和构架的使用寿命,增加后期的维护费用和更换费用。本文首先介绍常用的轮轨接触理论,以CRH3系高速列车为参考对象,采用多体动力学软件SIMAPCK建立整车动力学模型,考虑车轮多边形的不同波深和阶数对车辆动力学性能的影响,重点分析了车
深度学习神经网络长期受到网络更新过程繁复、调参时间过长和实验分析困难等因素的限制,令其发展受到一定程度的阻碍。根据单隐层前馈神经网络的理论基础提出了另一个维度的
黄连素(Berberine,BBR)又名小檗碱,是一种异喹啉类生物碱。据报道,黄连素具有多种药理作用,其中包括抗菌、抗癌、抗氧化和抗炎等。巨噬细胞(Macrophages)是广泛分布于机体的先天免疫细胞,在各种生理和病理过程中发挥不同的作用。氧化应激是指细胞或组织中产生和积累的活性氧与生物系统对这些反应产物的解毒能力不平衡而引起的一种现象。炎症反应是对微生物感染和组织损伤的一种快速而协调的反应,会
随着国家经济的快速发展,近年来我国的乘用车增长保持较高的速度,然而随着汽车数目数量的增加,交通管理也面临着诸多问题。在复杂的交通网络中存在大量的汽车交通拥堵问题,因
在传统前列腺介入手术机器人进行穿刺手术过程中,医生需要对穿刺手术过程进行实时监控,传统的监控手段是使用超声图像系统对人体组织和穿刺针的相对位置进行实时检测,然而超
随着我国经济的发展,水貂养殖业发展非常迅猛,水貂养殖户数量逐年增加,随之而来的是一些传染病发病率升高,尤其是细菌性呼吸道疾病,给水貂养殖业带来了巨大经济损失,严重影响毛皮动物产业健康发展。水貂出血性肺炎是近年来引起水貂死亡的一种急性、热性、高致死性的细菌性呼吸道传染病。该病最早鉴定为是由绿脓杆菌(Pseudomonas aeruginosa)单独感染而引起。然而,近年来我们对临床发病病例的研究发现
当大量的温控负荷被合理的控制时,能发挥出高度有效的聚合灵活性,这种特性使得温控负荷为智能电网提供多种多样的辅助服务。本文主要研究辅助服务中的频率调节服务,目的是稳定电网运行,优化用电方式,节约能源。针对电网频率偏差最小化、考虑用户舒适度的频率优化和激励用户参与频率调节服务三个方面,分别设计了温控负荷控制策略,具体的研究内容如下:首先,介绍了温控负荷的常用物理模型,包括一阶常微分方程模型,聚合群体双
基于高度集成化的电子芯片工作时温度过高易产生工作稳定性下降甚至过热而损坏的问题。为获得更加高效稳定的冷却技术,越来越多的学者开始从事微细通道强化传热技术研究。然
随着风电和光伏发电等可再生能源发电产业的技术成熟、成本下降和规模扩大,可再生能源的发展瓶颈已从技术装备和开发建设能力的约束转变为制度建设和市场机制的制约,突出体现
太阳能作为一种新能源越来越受到各国的重视。光伏电池本身具有较强的非线性特征,因此最大功率点跟踪是光伏电池研究的一个重点。本文以光伏并网发电系统作为研究对象,具体研