基于贝叶斯的分布式网页自动分类算法研究及应用

被引量 : 4次 | 上传用户:yibola2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着移动互联网的快速发展,以及数据采集技术和数据存储技术的快速进步,使得各组织机构可以积累海量数据。而从中提取有用的信息已经成为巨大的挑战。为了应对挑战,数据挖掘技术和Hadoop云计算技术应运而生。本文研究的网页自动分类是数据挖掘的一个重要分支,在挖掘“商业价值”方面的作用突出,比如它能够帮助移动运营商回答这样的问题,“可以为哪些客户提供每月100元的包含流量和长途话费的套餐”。本文聚焦于分布式网页自动分类系统的构建,将Hadoop云计算应用到网页分类中是本文的亮点之一。本文从网页自动分类综述开始;引出贝叶斯分类器和特征选择,以“框图”形式给出它们的MapReduce程序设计;继而从软件设计角度叙述分布式网页自动分类系统;最后以GB/TB级别的海量网络流量监控数据对分类性能进行实验分析。文中的创新点如下:(1)将Hadoop云计算技术应用到网页自动分类中,研究朴素贝叶斯分类器分布式并行算法,以应对GB/TB级别的海量网络流量监控数据分类的挑战。(2)将Hadoop云计算技术应用到文本挖掘的特征选择中,研究设计与实现信息增益特征选择MapReduce并行算法,以应对GB/TB级别的海量网络流量监控数据特征选择的挑战。(3)将概率统计的“累积概率”概念引入到文本分类特征选择的参数最优化问题中,通过累积概率实现特征向量大小最佳阈值的自适应选取。特征向量大小不仅关系到系统软件性能,更影响系统分类性能。本文提出评估鲁棒性的度量,并验证了“累积概率阈值”方案具有良好的鲁棒性,表明它适用于不同应用场景。(4)将软件设计、Hadoop云计算和数据挖掘技术相结合,使用Hadoop云计算框架构建分布式网页自动分类系统。实施软件设计模式中的“外观模式”搭建网页自动分类系统框架,从上到下分为接口层、组件层和模块层。
其他文献
目的通过自拟中药汤剂,观察其对输卵管阻塞患者的治疗效果,并与传统西药治疗效果进行对比。方法选取2011年1月至2012年12月期间300例输卵管阻塞患者,随机分为中药组和西药组,
在市场交易中过程中,消费者由于缺乏相关专业知识与信息加之能力有限等因素,消费者的合法权益难以得到完全的实现,此时,消费者的反悔权这一新型权利应运而生。作为一种倾斜保
目的:探讨腹腔镜下脱垂子宫腹直肌悬吊固定术在女性盆底重建术中的应用价值。方法:选取2015年1月至2017年12月大理市第一人民医院收治的30例子宫脱垂患者作为研究对象,均在腹
大学与中小学合作是教师教育改革的重要路径.通过对2007-2016年146篇“大学与中小学合作(U-S)”问题的相关文献梳理,发现研究主题主要集中在合作内涵、模式与类型、困境与对策
人腺病毒(Ad)有7组50多种血清型,是引起急性呼吸道感染、急性胃肠炎、肾炎、眼角膜结膜炎、膀胱炎等的重要病原体。其中人B组腺病毒7型、14型、55型常引起儿童和成人重症肺炎
中国与非洲国家建交以后,双边贸易关系不断取得新进展。截止到2013年,中国已经与非洲的53个国家建立贸易往来关系。2000年中非合作论坛成立,此时的双边贸易总额只有106亿美元,到2
香附为莎草科植物,草的干燥根茎,医疗处方上常用名香附、香附朱、灸香附、醋香附。生香附呈纺锤形,有须根痕,表面棕色,内心红棕或黄白色,有香气。切片外表棕褐色,内为白色,薄
本文从理论上区分了纽带社会资本、桥接社会资本和联系社会资本,并通过对一个东北赫哲族村庄的发展过程分析,分别呈现了三种形态社会资本在村庄发展中的作用。研究结果发现:桥
<正>一、地方法治建设的逻辑可能性所谓地方法治建设,是指区域性共同体在国家法治的基本框架内,根据本地区经济社会发展的实际情况,就依法限制公共权力、保护公民自由与权利
地理标志农产品是产自特定地域具有特殊品质的农产品。本文系统分析了我国地理标志农产品的一般属性,深入解剖了地理标志农产品独特的本质特征,研究提出了地理标志农产品的特