论文部分内容阅读
伴随着移动互联网的快速发展,以及数据采集技术和数据存储技术的快速进步,使得各组织机构可以积累海量数据。而从中提取有用的信息已经成为巨大的挑战。为了应对挑战,数据挖掘技术和Hadoop云计算技术应运而生。本文研究的网页自动分类是数据挖掘的一个重要分支,在挖掘“商业价值”方面的作用突出,比如它能够帮助移动运营商回答这样的问题,“可以为哪些客户提供每月100元的包含流量和长途话费的套餐”。本文聚焦于分布式网页自动分类系统的构建,将Hadoop云计算应用到网页分类中是本文的亮点之一。本文从网页自动分类综述开始;引出贝叶斯分类器和特征选择,以“框图”形式给出它们的MapReduce程序设计;继而从软件设计角度叙述分布式网页自动分类系统;最后以GB/TB级别的海量网络流量监控数据对分类性能进行实验分析。文中的创新点如下:(1)将Hadoop云计算技术应用到网页自动分类中,研究朴素贝叶斯分类器分布式并行算法,以应对GB/TB级别的海量网络流量监控数据分类的挑战。(2)将Hadoop云计算技术应用到文本挖掘的特征选择中,研究设计与实现信息增益特征选择MapReduce并行算法,以应对GB/TB级别的海量网络流量监控数据特征选择的挑战。(3)将概率统计的“累积概率”概念引入到文本分类特征选择的参数最优化问题中,通过累积概率实现特征向量大小最佳阈值的自适应选取。特征向量大小不仅关系到系统软件性能,更影响系统分类性能。本文提出评估鲁棒性的度量,并验证了“累积概率阈值”方案具有良好的鲁棒性,表明它适用于不同应用场景。(4)将软件设计、Hadoop云计算和数据挖掘技术相结合,使用Hadoop云计算框架构建分布式网页自动分类系统。实施软件设计模式中的“外观模式”搭建网页自动分类系统框架,从上到下分为接口层、组件层和模块层。