并行数据挖掘系统中SQL流程化的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：wgm740821

【摘要】

：

基于MapReduce的并行数据挖掘系统可以极大地提高数据挖掘的效率，使数据挖掘系统拥有强运算能力与海量存储能力，并且系统具有良好的计算与存储横向扩展性。与数据挖掘紧密关联

【作者】

：

李凯平

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年期

【关键词】

：

SQL语言 MapReduce框架 Hive软件数据挖掘流程化关键字算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于MapReduce的并行数据挖掘系统可以极大地提高数据挖掘的效率，使数据挖掘系统拥有强运算能力与海量存储能力，并且系统具有良好的计算与存储横向扩展性。与数据挖掘紧密关联的SQL语言也可以在MapReduce上执行，而伴随MapReduce框架的并行存储机制使数据挖掘系统本身有了数据仓库的概念。如果把SQL嵌入到并行数据挖掘系统中，由于SQL的后台并行执行方式，可以提高SQL的执行效率，达到增强并行数据挖掘系统的功能，再将SQL用界面流程表示，可以方便地发现逻辑问题，提高并行数据挖掘系统的应用性。　　本文针对并行数据挖掘系统中SQL流程化的应用展开了研究工作。主要内容包括：　　 1.实现基于Hadoop的SQL关键字算法。SQL语言关键字包含了select，join，where，group by，order by，delete，update，insert。实现这些　　关键字的并行化算法，为并行地执行SQL奠定了基础。　　 2.设计一个适用于SQL流程化的数据挖掘系统框架，并设计实现数据流程解析执行的功能。这个功能是为了解析一个流程描述的xml文件，生成一个有向无环图的对象，然后根据拓扑排序执行图中的每个节点，每个节点实际上是一个基于MapReduce的并行算法。　　 3.实现SQL的解析功能，将SQL解析成内容2中的流程描述xml文件。该步骤的实现是基于开源软件Hive中SQL解析代码的二次开发。　　 4.SQL语言界面流程化的实现。根据流程描述xml文件，在界面上显示对应SQL执行的数据流程，利用数据挖掘系统的功能将流程的执行进度进行动态地展示。　　最后，本文将展示此数据挖掘系统中典型SQL语句的执行过程，并对执行过程与Hive中SQL的处理方式进行对比，借此指出今后工作方向。

其他文献

Research for Peer Assisted Live Streaming in P2P Multicast Systems

Due to the growth of internet media entertainment, video streaming has gained popularity in todays media streaming.An increased demand of both live and on deman

学位

P2PMulticastSystemsP2PMulticastSystemsMultimediastreamingMultimediastreamingPe

基于人工神经网络的超声检测缺陷识别研究

超声检测技术主要用于航空航天、高精密加工等领域的无损检测。其核心部分之一是缺陷识别，即采集到反射回波后，如何识别出是不是有缺陷，是何种缺陷等。特征的提取和特征向量的建

学位

缺陷识别特征提取人工神经网络主分量分析K-邻近分类超声检测

数据服务运行优化的关键技术研究

学位

视频编码率失真模型及优化技术研究

在高度信息化的年代,视频作为最重要的信息承载媒介之一,日益深入地影响着人类的生产和生活方式。视频数据量的爆炸式增长,对现有信息传输和存储的效能不断地提出更高的要求,

学位

视频编码技术编码控制算法率失真优化频域加权变换方法

面向高度不平衡数据集的统计线性分类方法研究

衡量分类器及其学习算法优劣的标准不能简单地采用分类精度等单一指标。现实生活中有大量不平衡数据集，包括样本数量不平衡和分布区域不平衡。在面对高度不平衡数据集时，常规算

学位

不平衡数据集线性分类算法伪逆算法线性判别伪逆线性判别分类器

基于gPXE的智能无盘系统管理技术研究

随着网络启动技术的蓬勃发展,网络启动的应用也越来越广泛,比如：网吧,学校教学,大型酒店以及一些需要大量计算机的场所。gPXE (Open-source Preboot Execution Environment)作

学位

gPXE智能无盘系统iSCSI逻辑卷快照

以太网三层交换机软件系统的设计与实现

随着信息技术的快速发展，第三层交换机已成为网络基础设施中常用设备之一。同时伴随第三层交换机等典型的嵌入式系统的不断扩展，嵌入式实时操作系统早已成为嵌入式系统不可分割

学位

以太网三层交换机软件系统RTEMS平台虚接口路由协议

基于领域本体的旅游信息检索系统研究与实现

论文对信息检索的应用现状和所采用的技术进行了分析,对面向本体的信息检索技术进行了深入研究。针对旅游领域信息检索效率低下的问题,研究并实现了一个基于领域本体的旅游信

学位

本体查询扩展语义相似度语义排序信息检索

多功能网络监护仪的设计与实现

随着我国人口老龄化问题的逐步突出，多功能网络监护成为多方关注的焦点。国外监护产品技术先进、测量结果精确，但价格偏高。国内监护产品价格低，但精度不够。这就提出了本课题，应

学位

网络监护仪功能模块JTAGICE仿真临床标准控制器

基于业务模型的3G数据业务分析与预测

自WCDMA、CDMA2000、TD-SCDMA等3G网络投入运营以来,移动数据业务得到越来越广泛的应用。同时,运营商也愈加关注如何在一定的无线资源情况下提高网络服务质量,为用户提供更好

学位

3G数据业务网络规划优化业务分析预测场景匹配

并行数据挖掘系统中SQL流程化的研究与实现

其他学术论文