基于MapReduce和Rough集理论的海量数据属性约简方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:TDH39520007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会网络化和信息化的迅猛发展,在许多领域积累了海量的数据,如何降低这些数据的维度,从中选择出有用的特征,一直是海量数据挖掘的重要研究课题。基于Rough集理论的属性约简是一种有效的数据约简和降维方法,它能在尽可能保证数据分类能力不变的情况下有效降低数据的维度、选择最有用的特征。然而,经典的Rough集属性约简方法对大数据的处理能力有限、效率不高,不能适应海量数据挖掘的应用需求,因此,研究基于Rough集的海量数据属性约简,能拓展粗糙集理论的应用,具有重要的研究价值。   云计算的兴起,为海量数据挖掘带来了新的思路,目前云计算技术已成为海量数据挖掘的高效解决方案。采用云计算技术进行海量数据挖掘的关键在于设计能运行于云计算平台的并行数据挖掘算法。本文将目前主流的云计算并行编程模型MapReduce与Rough集的理论相结合,针对海量数据的属性约简问题,围绕并行属性约简的关键技术进行了研究,取得的研究成果如下:   (1)提出了基于MapReduce和Rough集理论的并行正区域计算算法。本文在分析正区域求解过程可并行性的基础上,结合MapReduce的并行思想,提出了基于MapReduce的并行正区域计算方法,提高了对大规模数据集计算正区域的效率。   (2)提出了基于MapReduce和Rough集理论的并行属性核计算算法。本文在并行计算正区域的基础上,研究了属性核计算过程中条件属性之间和判断每个条件属性是否为核属性两个层面的并行方式,提出了基于MapReduce的并行属性核计算方法,并通过仿真实验,验证了该方法对大规模数据的高效处理能力。   (3)提出了基于MapReduce和Rough集理论的并行属性约简算法。本文在基于MapReduce的并行属性核计算算法的基础上,研究了计算属性重要性过程和判断属性集是否是一个约简的并行性,提出了基于MapReduce的并行属性重要性计算算法和并行属性约简算法。对比实验结果显示了该算法的高效性。   (4)设计了一个基于Hadoop云计算平台的海量数据挖掘原型系统。本文最后基于Hadoop开源云计算平台,设计了一个海量数据挖掘的原型系统。系统实现了基于B/S架构进行海量数据并行属性约简等功能,并具有良好的可扩展性。  
其他文献
随着全球信息化的发展,信息安全问题越来越突出,构建安全、可信信息世界的需求更加迫切。作为信息安全核心的认证技术,是建立信息世界安全秩序的基础,能够通过提供机密性、完整性
近年移动互联网高速发展,给人们生活带来了极大的便利,同时也带来了严重的网络安全问题。由于现在人们的工作生活对网络的依赖性很强,网络攻击带来的损失也越来越难以承受。
网络隐蔽信道的研究是信息安全领域的一个重要分支。它是在网络系统中利用网络资源构造的隐蔽信道,能够违反互联网通信的正常规则进行通信,因此可以被用来进行信息泄露并秘密
目前,不同领域的企业都大力推行信息化,信息中心的网络环境也不尽相同,现有的IT资源监控系统已不能适应不同用户的需求。本文研究面向SaaS的IT资源综合监控系统,系统从数据存
随着网络技术与计算机图形学的发展,三维模型已经在虚拟现实、医学立体影像处理、三维影视产业、地理信息系统等领域得到广泛应用。三维扫描技术的发展使得三维模型绘制越来
高清体绘制的算法研究要求高质量、高效率的绘制体数据的数据特征。直接体绘制方法在GPU并行加速的支持下能够达到高质量、实时可交互的绘制,但是对用户感兴趣区域的绘制往往
战术Ad hoc是用于战术通信环境的移动Ad hoc网络,在战场指挥通信领域有着广泛的应用前景,其中两栖作战就是一个重要的战场应用环境。结合当今世界对两栖作战有着现实需求,因
当采用成像设备进行拍摄时候,经常会出现在同一个场景中的多个不同目标,当距离差距较大时候,总是存在一些目标清晰,而另外一些目标模糊,想获得所有目标清晰是很困难的事情。但是对
神经元脉冲信号的建模与预测是神经科学领域的重要研究问题。通过神经元建模来分析脉冲信号的发放特点,有助于研究学者们更加深刻地理解大脑在执行高级认知任务中的工作方式
为了提高物理资源的利用率,虚拟化技术得以普遍运用。通过运用虚拟化技术,单台服务器上可以整合许多虚拟机来为用户提供各种服务。为了保证用户的良好体验,这台服务器对硬件