并行数据挖掘系统中SQL流程化的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wgm740821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于MapReduce的并行数据挖掘系统可以极大地提高数据挖掘的效率,使数据挖掘系统拥有强运算能力与海量存储能力,并且系统具有良好的计算与存储横向扩展性。与数据挖掘紧密关联的SQL语言也可以在MapReduce上执行,而伴随MapReduce框架的并行存储机制使数据挖掘系统本身有了数据仓库的概念。如果把SQL嵌入到并行数据挖掘系统中,由于SQL的后台并行执行方式,可以提高SQL的执行效率,达到增强并行数据挖掘系统的功能,再将SQL用界面流程表示,可以方便地发现逻辑问题,提高并行数据挖掘系统的应用性。   本文针对并行数据挖掘系统中SQL流程化的应用展开了研究工作。主要内容包括:   1.实现基于Hadoop的SQL关键字算法。SQL语言关键字包含了select,join,where,group by,order by,delete,update,insert。实现这些   关键字的并行化算法,为并行地执行SQL奠定了基础。   2.设计一个适用于SQL流程化的数据挖掘系统框架,并设计实现数据流程解析执行的功能。这个功能是为了解析一个流程描述的xml文件,生成一个有向无环图的对象,然后根据拓扑排序执行图中的每个节点,每个节点实际上是一个基于MapReduce的并行算法。   3.实现SQL的解析功能,将SQL解析成内容2中的流程描述xml文件。该步骤的实现是基于开源软件Hive中SQL解析代码的二次开发。   4.SQL语言界面流程化的实现。根据流程描述xml文件,在界面上显示对应SQL执行的数据流程,利用数据挖掘系统的功能将流程的执行进度进行动态地展示。   最后,本文将展示此数据挖掘系统中典型SQL语句的执行过程,并对执行过程与Hive中SQL的处理方式进行对比,借此指出今后工作方向。
其他文献
Due to the growth of internet media entertainment, video streaming has gained popularity in todays media streaming.An increased demand of both live and on deman
超声检测技术主要用于航空航天、高精密加工等领域的无损检测。其核心部分之一是缺陷识别,即采集到反射回波后,如何识别出是不是有缺陷,是何种缺陷等。特征的提取和特征向量的建
学位
在高度信息化的年代,视频作为最重要的信息承载媒介之一,日益深入地影响着人类的生产和生活方式。视频数据量的爆炸式增长,对现有信息传输和存储的效能不断地提出更高的要求,
衡量分类器及其学习算法优劣的标准不能简单地采用分类精度等单一指标。现实生活中有大量不平衡数据集,包括样本数量不平衡和分布区域不平衡。在面对高度不平衡数据集时,常规算
随着网络启动技术的蓬勃发展,网络启动的应用也越来越广泛,比如:网吧,学校教学,大型酒店以及一些需要大量计算机的场所。gPXE (Open-source Preboot Execution Environment)作
随着信息技术的快速发展,第三层交换机已成为网络基础设施中常用设备之一。同时伴随第三层交换机等典型的嵌入式系统的不断扩展,嵌入式实时操作系统早已成为嵌入式系统不可分割
论文对信息检索的应用现状和所采用的技术进行了分析,对面向本体的信息检索技术进行了深入研究。针对旅游领域信息检索效率低下的问题,研究并实现了一个基于领域本体的旅游信
随着我国人口老龄化问题的逐步突出,多功能网络监护成为多方关注的焦点。国外监护产品技术先进、测量结果精确,但价格偏高。国内监护产品价格低,但精度不够。这就提出了本课题,应
自WCDMA、CDMA2000、TD-SCDMA等3G网络投入运营以来,移动数据业务得到越来越广泛的应用。同时,运营商也愈加关注如何在一定的无线资源情况下提高网络服务质量,为用户提供更好