【摘 要】
:
信息化技术的普及与移动互联的迅速崛起,带来了前所未有的“大数据”时代。数据量的飞速爆炸,使得利用及研究数据面临重大挑战,怎样在海量数据中,钻取、挖掘、进而获取数据带
论文部分内容阅读
信息化技术的普及与移动互联的迅速崛起,带来了前所未有的“大数据”时代。数据量的飞速爆炸,使得利用及研究数据面临重大挑战,怎样在海量数据中,钻取、挖掘、进而获取数据带来的价值变得尤为关键。在近几年的大数据技术中,以MapReduce编程模型为核心框架的诸多大数据系统,充分利用并行计算优势,实现了高效的海量数据处理,因此得到了广泛的应用。SQL-on-Hadoop系统作为大数据时代重要的工具,不仅拥有SQL简单易用的特性,同时具备了 Hadoop系统的优点,能够处理海量数据,挖掘大数据中潜在的价值。Spark SQL作为最具代表性的SQL-on-Hadoop系统,但其在面对海量数据(TB)的查询时,依然无法在短时间内得到查询结果,查询的延时会大大降低用户的使用体验。因此,如何提高Spark SQL系统的查询效率成为了研究热点。本文针对当前Spark SQL系统的不足,提出了一套通用的SQL-on-Hadoop系统查询的优化方案,并对该方案进行了系统实现。首先,通过对查询场景的分析,本文将原始数据重写为列式存储格式Parquet来更好的处理分析型查询事务;其次,在Parquet的元数据生成阶段,本文加入了布隆过滤器和直方图两种数据结构;第三,在谓词下推阶段,本文通过访问布隆过滤器和直方图来提升无效数据过滤的效率;最后,针对查询中经常存在的LIMIT语句,本文在Spark任务执行阶段通过排序的方式实现了提前退出,从而减少不必要的执行时间。本文的优化方案从底层格式存储入手,重点加强无效数据过滤(Data Skipping)的效率,系统的,逐级并且有效的提升了 Spark SQL系统的查询效率。本文首先根据当前Spark SQL系统的不足对查询优化的主要工作内容进行了分析;其次对Spark SQL系统查询的优化进行了研究并进行了详细设计,明确了系统的功能模块划分以及各模块需要实现的功能;最后,本文对所提出的方案进行了测试实验,验证了优化方案的完整性及有效性。
其他文献
由金属与金属间轨道直接重叠形成的金属-金属键,使双核金属单元产生了不同于单个金属离子的特殊的电子组态,这些电子微态是该类化合物产生优良性质的内在原因,使其在光电、磁
随着智能终端和数据业务的爆炸式增长,无线通信系统面临着提高系统容量、满足用户高传输速率、低时延需求等各方面的考验。扩展现有蜂窝系统工作频段至非授权频段,增加可用带
现代社会由于网络技术的迅猛发展,支付宝、微信等非现金支付的广泛运用,电子支付、移动支付凭借其快速、便捷、相对安全的支付体验,正在为人们所接受,现金交易越来越多地被取代。传统印钞公司的单一化业务受到极大冲击,印钞生产量逐年下降。为更好地转型,开拓新业务新产品,印钞公司在不断探索新的发展方向。DY印钞公司作为中国人民银行中国印钞造币总公司全资子公司,围绕总公司的发展战略,制定了“主业为基、多元发展”的
随着互联网的迅速发展,信息化已经覆盖了生活的方方面面,但也随之带来了很多问题,例如黑客攻击造成的信息泄露和经济损失等,因此可信软件的研发已成为当务之急。静态分析是发
随着国民经济水平和居民消费能力的不断提高,人们越发重视家居装饰的个性化、多样化和时尚化,因此近些年来国内家居软装行业快速发展,市场规模以数倍的速度不断扩大。但是国
酿酒酵母是大规模酒精工业生产用菌种,当前它又发展成为日益重要的生物医药产品和酶制剂的生产平台。而对酿酒酵母进行的各种遗传改造和利用,都离不开蛋白质的表达与调控。本工作研究木质纤维素酶解和利用中最重要的组分之一β-葡萄糖苷酶(β-glucosidase)基因在工业酵母单倍体衍生菌株An-α(MATαura3)中的锚定和分泌表达及相应的UPR信号响应规律,为最终实现β-glucosidase的高宿主兼
针对极紫外(EUV)多层膜的设计和表征过程中普遍采用的遗传算法(GA)所具有的大种群、求解速度慢、精度较低的问题,本文将实数编码的量子进化算法(RQEA)应用于周期EUV多层膜的
在移动互联网时代,人们需要高速便捷的移动数据服务。因此无线网络要有高效的频谱利用率和密集的小区部署。国际标准化组织第三代合作伙伴计划(3GPP)提出了第四代移动通信长
背景急性髓系白血病(AML)患者群体因所经历的遗传学和分子学改变各异,在临床特征、发病机理、治疗效果及疾病预后等方面存在很大差异。以往的研究发现同一亚组患者的预后不尽相同。临床上许多AML患者同时存在多种异常基因,各种异常基因之间可能存在相互作用并对患者预后产生重要影响。因此对AML患者的异常基因进行全面准确地检测,综合地阐明分子特征,以更好地表征AML生物学并精确评估预后,显得尤为重要。目的检测
随着信息技术的蓬勃发展,各类不确定数据查询已广泛应用于众多现实应用中。近年来,具备定位功能的各型手持无线终端以及车载设备不断普及,使得对基于位置的移动计算需求日渐