论文部分内容阅读
随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤保障,网络蜘蛛的发展也越来越迅速。论文从研究互联网络上信息的分布特征入手,对“主题网络蜘蛛”这一新型的网络蜘蛛原理、策略、结构、工作模式、调度机制以及实现上进行了深入的分析研究。论文设计了一个主题网络蜘蛛系统——Focus CrawlingSpider,在Windows环境下采用C++实现了该系统。在Focus Crawling Spider系统的页面主题相关性判定策略中引入了文档自动分类的思想,提出了基于简单向量距离法、KNN算法以及朴素贝叶斯算法综合对页面进行主题相关性判定的页面相关性的方法;同时在URL剪枝部分,论文提出了将“侵入式鱼群算法(Invasive Fish Search,IFS)”应用于Focus Crawling Spider系统,增强了该系统穿越“隧道”的能力,增加了该系统的爬行覆盖率。论文对Focus Crawling Spider系统的各个功能模块的设计与实现都进行了详细的论述,包括大量的效率瓶颈的分析以及解决方案。在系统结构、页面采集、URL(Uniform Resource Locator,URL)管理、URL评价、DNS(DomainName Server,DNS)缓存系统、DOM(Document Object Model,DOM)结构生成、HTML(Hypertext Markup Language,HTML)解析等方面都提出并实现了一些创新点。论文从运行效率和爬行策略的改进效果等方面对Focus Crawling Spider系统进行了运行测试。通过对测试数据的分析比较,得到了较好的结果。