基于Spark平台的支持标准SQL语法的数据分析工具

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：yuahhnet

【摘要】

：

近年来,大数据领域的技术发展已经吸引了来自学术界和科技产业界甚至开发者社区越来越多的目光。如何针对密集性大数据高效的完成从数据获取到数据处理的一系列步骤,成为了大

【作者】

：

张超

【出处】

：

上海交通大学

【发表日期】

：

2004年期

【关键词】

：

大数据 Apache Spark Spark SQL 标准SQL语法工具

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,大数据领域的技术发展已经吸引了来自学术界和科技产业界甚至开发者社区越来越多的目光。如何针对密集性大数据高效的完成从数据获取到数据处理的一系列步骤,成为了大数据发展的主要挑战之一。谷歌提出的MapReduce框架虽然已经被证明可以解决一部分大数据问题,但是随着更深入的使用,更多的应用则将其处理过程效率低下的缺点暴露无遗。为了解决效率问题,有研究者提出了MapReduce的替代品Spark。Spark SQL作为Spark中新加入的模块,为用户提供结构化数据操作接口的同时,还集成了丰富的开发库以供编程人员调用。用户可以借助Spark SQL完成简单的数据操作,流程较为简便,因此Spark SQL迅速成为Spark中使用范围最为广泛的模块之一。然而Spark SQL也存在很多的不足之处。它所支持的两种Context:SQLContext和HiveContext,也都或多或少地存在一定问题。其共有的问题主要包括两点。第一,不支持标准的SQL语法。用户如果想进行数据操作,需要先花一定的时间去学习它所支持的特殊语法。一些调查表明,几乎所有的大数据研究者或者开发者都具有例如MySQL,Oracle等传统数据库的使用经验。他们对标准SQL语法更为熟知,更为希望可以直接在Spark平台上直接使用由标准SQL语法组成的语句。第二,这两者目前还存在很多功能性上的缺失。用户需要花费很多的时间精力去寻找其他方式来克服这些问题。这些不足都会对开发效率造成影响。本文提出了FlintStone,一个基于Spark构建的数据分析计算工具。用户可以借助FlintStone完成众多的数据计算查询操作。与Spark SQL相比,FlintStone主要有三方面的优势。第一,支持标准SQL(SQL:1999)语法,用户可以直接利用更为熟悉的语句来完成操作。第二,它支持更多的操作类型和数据类型。第三,在从语句分析到生成Spark任务的过程中,FlintStone会做一系列的优化。FlintStone可以被视为一座连通Spark与标准DML(数据操作语言)的桥梁。最后,本文将FlintStone提供的FlintContext与Spark SQL提供的两种Context分别进行了功能和性能上的对比。实验结果表明,在功能上,FlintStone可以支持标准SQL语法以及更多的操作类型和数据类型;在性能上,FlintStone同样有一定的提升。在对数据集进行Join类型操作时,FlintStone相比原生Spark SQL,性能上的提升可以达到10%左右。现阶段FlintStone已经完成了第一个版本的开发,同时已经在github平台上开源并贡献给了Spark社区。同时该项目也受到了来自Intel大数据部门专家的支持和维护。

其他文献

利用融合影像在颅内外血管搭桥术中进行脑膜中动脉的定位

缺血性脑血管病(Ischemic cerebrovascular disease,ICVD)是一类不同程度的缺血性脑血管疾病的总称,其病因繁多、病理机制复杂,但究其根本,各类不同病因均涉及三个基本的病理

学位

缺血性脑血管病烟雾病脑膜中动脉神经导航影像融合

MicroRNA-133对胆管癌细胞迁移和侵袭的影响

目的:随着近年来对MicroRNA研究的深入,发现其广泛参与细胞的增殖、凋亡和分化等过程,在细胞的病理及生理变化过程中发挥重要的作用。胆管癌是起源于胆管上皮细胞具有高度侵

学位

miR-133胆管癌c-Met迁移侵袭

复电阻率测井仪设计

我国是矿产资源大国,但由于矿产资源深埋地下,观测难一直是资源开发的阻碍。为了解地下物质的结构分布,就需要在地表向地下钻井,利用测井设备从井口深入地下测量,这种钻井测

学位

测井电法勘探复电阻率ARMLabVIEW

甲基苯丙胺慢性肺损伤：白藜芦醇保护肺泡上皮屏障完整性

目的:甲基苯丙胺(methamphetamine,MA)又称“冰毒”,已经成为全球成瘾最为严重的新型苯丙胺类合成毒品之一,长期滥用可导致心、脑、肺等组织器官的损伤。MA吸入方式主要分为

学位

甲基苯丙胺肺损伤白藜芦醇SIRT1凋亡

改革开放以来中国人的解放历程及经验启示

人的解放是马克思为之奋斗终身的崇高理想,也是我国改革建设的目标指向,纵观我国改革开放的历史就是我国人的解放的发展史。本文以人的解放为线索梳理改革开放以来的历程,总

学位

改革开放人的解放社会发展

细胞遗传学异常、临床特征及化疗方案对新诊断多发性骨髓瘤预后的影响

目的:探讨常见的细胞遗传学异常对新诊断的多发性骨髓瘤(Multiple Myeloma,MM)患者PFS的影响,研究临床特征与PFS之间关系,探讨不同化疗方案对预后的影响。方法:收集2014年1月

学位

多发性骨髓瘤细胞遗传学化疗方案预后疗效

偏突颌畸形患者正颌术后眼平面变化与正面自然头位变化的关系分析

目的:正颌手术可以治疗偏突颌畸形,然而许多医生在临床实践中发现偏突颌畸形患者通过正颌手术纠正颌骨偏斜后,其眼平面偏斜也得到了一定程度的纠正。有学者提出这是术后正面

学位

偏突颌畸形正颌手术自然头位眼平面CBCT

基于LMI的多智能体系统分布式编队控制研究

近几十年来,越来越多的国内外学者对多智能体系统进行了研究,其主要原因是由于多智能体系统可以通过相互之间的合作协商来完成单个智能体所不能完成的复杂困难问题,而且多智

学位

多智能体系统编队控制时变时滞线性矩阵不等式

音乐在法语外语教学中的运用

在当今的法语教学中,不少老师将音乐,尤其是法语歌曲作为教学素材融入课堂之中。那么,音乐素材在法语教学中究竟有何价值?在我国高校的法语教学中,音乐素材拥有怎样的地位,其

学位

音乐语言法语外语教学中国学生微课

海洋拖曳系统姿态监测的关键技术研究

近年来深海勘探技术在国际上得到了快速发展,在很大程度上提高了对深海的地层资源的了解和开采水平,使得开采深海新资源成为可能。随着我国经济实力的提高,更早更快地了解,开

学位

姿态监测数据融合神经网路软件开发

基于Spark平台的支持标准SQL语法的数据分析工具

其他学术论文