基于Spark的在线聚集查询优化研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:lhmsgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络、物联网、电子商务等的应用和普及,当今数据发生爆炸性增长,在线聚集由于通过采样得到近似解,避免扫描整张表,提高了数据库中聚集操作的执行效率,因此被引入大数据处理平台。但是目前的研究仅在Spark平台实现在线聚集系统未考虑优化,导致基于Spark平台实现的在线聚集系统存在对倾斜数据执行效率不高、连接操作成为性能瓶颈的问题。为解决这些问题,提高Spark中在线聚集的整体执行性能,本文对在线聚集中上述问题进行研究。对于在线聚集中的倾斜数据处理问题,本文综合考虑历史查询中属性列的频率、倾斜程度、分层样本的存储负载等条件建立混合整数线性规划模型选择合适的属性列构建分层样本,之后基于分层样本设计单表查询算法,给出基于分层样本抽样的区间估计公式,有效提高在线聚集对倾斜数据的查询效率。对于在线聚集中的多表连接问题,本文使用索引减少采样次数。首先综合考虑连接属性的频率、索引的存储负载等条件建立最优化模型选择合适的连接属性建立索引。根据索引设计在线聚集中两表连接查询算法Index Ripple Join,并给出了Index Ripple Join的区间估计公式,使得估计结果满足无偏性。之后本文研究将两表连接扩展到多表连接,根据连接条件以及索引将多表连接抽象为一个Join连接图,基于Join连接图得到Join连接树集合从而生成多表连接执行计划。针对在线聚集中的嵌套查询问题,本文实现了G-OLA中的嵌套查询算法,并结合倾斜数据处理和多表连接优化,提高在线聚集中嵌套查询执行效率。本文基于大数据平台Spark,结合Hive,设计并开发了在线聚集原型系统SOLA,并在曙光集群部署和测试。测试结果表明本文提出的模型、算法相较于已有算法能够显著减少采样次数,增加执行效率,为在线聚集领域的技术发展做出了积极的尝试。
其他文献
由于场景的复杂性,很难对单目标实现持久性跟踪,使得对单目标实现跟踪的算法在监控视频中难以得到普及。为实现对监控视频中的目标实现智能化的跟踪,本文对Tracking-Learning
主题式教学法兴起于北美,目前是欧洲、美国、日本比较普遍使用的汉语教学方法。这一教学法提倡在课堂教学中,为学习者创设具有真实性、趣味性、多元化的主题式课堂,引导学习者在自主学习、合作探究的基础上充分大胆地表达,而不过分追究语言形式上的一些错误,体现以学习者为中心的教学思想。因此该教学法符合汉语高级听说课的特点。《快乐汉语》节目第三季模拟汉语高级听说课堂,节目各环节体现了针对主题式教学法的应用。本论文
在乒乓球比赛中,接发球轮开球段技术是赢得比赛的关键技术。接发球轮开球段技术是乒乓球运动中最为关键的技术之一,一局比赛的输赢在很大的程度上都取决于接发球轮开球段技术。在乒乓球双打比赛中的接发球轮开球段技术不仅受自身技术的影响,还会受到对方的技战术、自我心理状况以及、队友处理球的方式以及与队友配合等影响,即使是世界最优秀的乒乓球运动员也会在接发球轮开球段上也存在弱点。接发球轮开球段技术的接发球技术尤为
近年来,随着计算机技术的快速发展和人们安全意识的提高,视觉跟踪算法越来越受到广大科研人员的关注,逐渐成为热门研究课题,相继提出了很多有创新的目标跟踪算法和重要理论。
面对着城镇机动化的高速发展,交通拥堵已经成为许多大城市的自带属性,过度集中的居民出行活动是城市交通拥堵发生的关键因素,而居民出行方式选择活动是一项复杂的决策行为,若要从根本上缓解交通拥堵问题,须对居民出行方式选择影响因素展开复杂研究。拥堵收费是作为交通需求管理(TDM)中的一种有效手段逐渐被大众所熟知,其本质是利用经济杠杆原理提高高峰期内居民私人汽车出行成本,交通拥堵收费会引起私人小汽车出行费用的
泡沫混凝土具有质轻、保温性能好、密度可调节、自立性、高流动性等优点,如今在建筑保温、路基加宽、路基填筑等方面应用广泛,开展泡沫混凝土强度检测技术的研究有重要的现实意义。传统的拉拔法、回弹法和钻芯法不适用于泡沫混凝土强度检测,所以本文尝试用超声无损检测法对泡沫混凝土强度进行检测,建立泡沫混凝土超声测强曲线,为其在实际工程中的应用提供参考。本文共制作两组共计324个泡沫混凝土试件,第一组为264个10
燃料电池阴极的氧还原反应(ORR)对燃料电池的主要性能起着关键性作用,寻找成本低、催化效果好的阴极材料对燃料电池的商业化应用与发展具有重要意义。本文基于色散校正的密度泛函理论(DFT-D),研究了本征锑烯、Pt,Co原子修饰锑烯及锑烯/石墨烯复合结构作为燃料电池阴极催化材料,对各氧还原中间物O、OH、O2、OOH的吸附特性,模拟了氧还原反应过程,计算了各步反应自由能变化和活化势垒。研究结果表明:P
随着直流技术的发展进步以及直流工程的逐步投运,主流技术已由传统直流发展到柔性直流,由两端直流发展为多端直流,并将由多端直流技术进一步发展形成直流电网的结构。目前关于多端直流输电系统可靠性评估方面的研究还在如火如荼地逐步深入中,但尚未有考虑控制策略对其可靠性影响的研究,为了解决这个问题,本文将从建立多端直流输电系统的可靠性模型入手,提出了一种多端直流输电系统的建模方法,这种方法可以有效解决直接利用频
高中地理教学中的研学实践是当下日益蓬勃发展的研学实践的一个重要分支,越来越受到社会和学界的关注。博物馆的功能不仅仅在于保存、研究、展览还有重要的教育功能,它也是高
公司层面股价崩盘风险的影响因素是当前研究的热点问题,学者们主要围绕信息透明度和代理成本从内外部影响因素展开研究,而忽视了资产误定价对股价崩盘风险的影响。由于中国市场的复杂性和特殊性,例如市场个人投资者占主体地位的格局仍未改变,个人投资者专业知识匮乏、具有投机性和认知偏差;中国市场套利管制严格,不利于套利者利用误定价进行套利交易,以上因素导致市场对公司估值出现偏误且资产误定价现象长期存在难以消除。当