论文部分内容阅读
随着社会网络化和信息化的迅猛发展,在许多领域积累了海量的数据,如何降低这些数据的维度,从中选择出有用的特征,一直是海量数据挖掘的重要研究课题。基于Rough集理论的属性约简是一种有效的数据约简和降维方法,它能在尽可能保证数据分类能力不变的情况下有效降低数据的维度、选择最有用的特征。然而,经典的Rough集属性约简方法对大数据的处理能力有限、效率不高,不能适应海量数据挖掘的应用需求,因此,研究基于Rough集的海量数据属性约简,能拓展粗糙集理论的应用,具有重要的研究价值。
云计算的兴起,为海量数据挖掘带来了新的思路,目前云计算技术已成为海量数据挖掘的高效解决方案。采用云计算技术进行海量数据挖掘的关键在于设计能运行于云计算平台的并行数据挖掘算法。本文将目前主流的云计算并行编程模型MapReduce与Rough集的理论相结合,针对海量数据的属性约简问题,围绕并行属性约简的关键技术进行了研究,取得的研究成果如下:
(1)提出了基于MapReduce和Rough集理论的并行正区域计算算法。本文在分析正区域求解过程可并行性的基础上,结合MapReduce的并行思想,提出了基于MapReduce的并行正区域计算方法,提高了对大规模数据集计算正区域的效率。
(2)提出了基于MapReduce和Rough集理论的并行属性核计算算法。本文在并行计算正区域的基础上,研究了属性核计算过程中条件属性之间和判断每个条件属性是否为核属性两个层面的并行方式,提出了基于MapReduce的并行属性核计算方法,并通过仿真实验,验证了该方法对大规模数据的高效处理能力。
(3)提出了基于MapReduce和Rough集理论的并行属性约简算法。本文在基于MapReduce的并行属性核计算算法的基础上,研究了计算属性重要性过程和判断属性集是否是一个约简的并行性,提出了基于MapReduce的并行属性重要性计算算法和并行属性约简算法。对比实验结果显示了该算法的高效性。
(4)设计了一个基于Hadoop云计算平台的海量数据挖掘原型系统。本文最后基于Hadoop开源云计算平台,设计了一个海量数据挖掘的原型系统。系统实现了基于B/S架构进行海量数据并行属性约简等功能,并具有良好的可扩展性。