基于Hadoop的海量小型XML数据挖掘的研究

来源 :西安邮电大学 西安邮电学院 | 被引量 : 3次 | 上传用户:yndlyxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着“互联网+”时代的到来,各行各业都将传统行业和互联网进行整合,来达到产业的升级换代,由此必然会产生海量的互联网数据。XML可以在不同平台间进行数据的表示、存储和交换,因此XML数据在互联网数据中占据了绝大多数。面对如此浩瀚的XML数据海洋,如何从中提取出有价值的信息,数据挖掘技术显示出了强大的生命力。通过数据挖掘,可以从海量的、非结构化的、静态的XML数据集合中,提取出隐含在其中的、未知的、有用的知识和信息,这对于科学研究与商业决策等领域具有指导性的重大意义。大数据带来了大机遇,但同时也对快速、高效、低成本的挖掘数据提出了挑战。云计算技术的泛起为解决大数据的这一挑战带来了新的机会,其通过分布式结构将存储和运算任务平衡的分配给集群中的节点,从而实现了对超大数据集的存储和运算,使数据挖掘变得更加简捷、高效、易于实现。在众多的云平台中,Hadoop以其成熟、开源、高效等特点在数据领域得到了普遍的应用。结合Hadoop与数据挖掘的优势,本文进行了以下三个方面的研究工作:首先,针对Hadoop在处理海量小型XML数据时出现的内存占用率高、存储性能差以及难以对XML这种结构的数据进行分析处理的问题,本文对XML数据进行解析、合并及编码等预处理,使其转变为适合于Hadoop处理的文本数据。其次,随着数据规模的急剧增大,将导致数据的扫描和计算所耗费的时间越来越长,致使Apriori算法已经无法满足于大型数据关联规则挖掘的要求。对此,本文对Apriori算法进行了分析与改进,提出了一种Apriori的改进型算法——-XApriori算法,通过对CD并行化策略的改进来对XApriori算法进行并行化处理并且将其与Hadoop平台相结合来进行关联规则的挖掘。最后,本文设计并且实现了一个以Hadoop为云计算平台的海量小型XML数据分布式挖掘系统——DXMS系统,对其各个小功能模块进行了阐述。该系统主要是由XML数据预处理模块和中间数据分布式挖掘模块组成,XML数据预处理模块采用生产者-消费模式,多线程,多级缓存等技术来提高系统对XML数据的预处理能力。中间数据分布式挖掘模块通过Hadoop架构与XApriori并行化算法相结合来提高系统对中间数据的挖掘能力。在充分利用网络资源的情况下,XML数据预处理模块和中间数据分布式挖掘模块可以并发运行,从而使DXMS系统的效率得到了提高。最后通过实验验证了DXMS系统的性能,证实了本文提出的方法的有效性,解决了当前在Hadoop平台下挖掘海量小型XML数据时的问题。
其他文献
内存数据库具有很多传统的数据库系统所不具备的优点,并且采用了与传统磁盘库不同的,针对内存存储结构而设计的架构,使得内存数据库取得比磁盘数据库高得多(10倍以上)的数据
随着科学技术和国民经济的发展,道路交通日趋重要。车速标示牌检测与识别作为智能车辆防撞系统的重要部分日益受到关注。为了帮助驾驶员对可能出现的危险做出预测及警告并确保
多输入多输出(MIMO)系统可以在不增加发射功率和带宽的条件下有效地提高信道容量和频谱利用率,因而在下一代移动通信和宽带无线接入系统中有广泛应用。其中垂直贝尔实验室分
在无线通信中,为抵抗无线信道的衰落出现了协作分集技术,它通过多个具有单天线的移动终端共享彼此的天线形成虚拟多输入多输出(Multiple Input Multiple Output,MIMO)系统,从
高光谱遥感技术的发展是20世纪80年代人类在对地观测方面所取得的重大技术突破之一。传感器可以获得近似连续的光谱信息,覆盖整个可见光至近红外的(0.4~2.4微米)光谱范围。正
由于传输错误、摄像头传感器中的故障像素单元、错误的存储位置和模数转换过程中的计时错误等因素,数字图像常常被脉冲噪声所污染。  脉冲噪声影响了很多图像处理应用的准
USB存储介质以其方便快捷、大容量、便于携带等特点得到广泛使用,这也导致客观上存在USB 存储介质中数据丢失泄露的风险。信息加密技术是应对这种风险的最基本、最核心的技术
可独立解码的视频帧内编码帧(Ⅰ帧)具有作为随机访问点、防止错误传播等重要功能,因而在视频应用中扮演着至关重要的角色,现今一些高质量视频应用例如数字电影中也有直接使用
作为一种便捷的网路通信技术,即时通信软件已经越来越深入人心,应用范围从单纯的网络聊天工具变成工作生活不可或缺的信息平台,找出其自身的局限性并对其扩展完善显得尤为迫切。