网页信息智能采集与分类的研究与实现

来源 :河北工业大学 | 被引量 : 6次 | 上传用户:zhuxuxu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息己经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱和重复等情况的发生。如何在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息,仅靠人工的方式来分类是不切实际的。因此,网页自动分类是组织和管理信息的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究意义和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、中文分词技术、特征提取技术、网页分类技术等。在此基础上,设计了网页信息智能采集与分类系统,本系统主要包括信息采集和信息分类两部分。信息采集部分,主要采用了基于主题的广度优先策略算法的网络爬虫和基于规则模板的网页信息抽取方法,把自由或者半结构化的数据转换成结构化的数据,同时采用基于数据库的信息排重和发布排重方法对信息进行排重。信息分类部分,根据用户的需求,通过采用分词和特征提取等技术相结合的SVM算法对信息进行分类,为用户提供全方位的信息服务。
其他文献
近年来,我国旅游业发展的功能已不再是仅仅赚取外汇或经济收入,而是进入到服务于社会生产生活、增强市场经济发展活力、满足人民日益增长的物质文化需求、促进国际交流合作、
某县城坐落于二叠系下统茅口组厚层灰岩上,喀斯特发育,属复杂喀斯特场地。在建设适宜性评估勘察中应用地下水系统分析方法,解决了复杂喀斯特场地适宜性分区问题,并作出了客观
沙沱水电站是乌江梯级贵州省境内的最后一级电站,是国家“西电东送”第2批建设项目之一。坝址位于乌江下游沿河县城上游7km处的狭谷喀斯特地区,枢纽由碾压混凝土重力坝、坝身溢