论文部分内容阅读
随着互联网的普及与发展,信息获取已经从通过手工获取信息、通过计算机获取信息,发展到通过网络获取信息。如今的网页数以亿计,要在浩如烟海的网络世界寻找需要的信息,作为现代信息获取技术的主要应用—搜索引擎是必不可少的。论文研究的目的是希望通过对基于超链分析的采集策略进行研究,探索提高搜索引擎中网页采集器采集性能的方法。
网页采集器是一种能够自动从互联网上采集网页的软件,它决定着搜索引擎的数据是否丰富,信息是否能够得到及时更新。论文系统地介绍了搜索引擎中网页采集器的工作原理。Robot主要由HTTP下载模块、爬行策略控制器和URL解析器三个部分组成。在Robot系统实现中采用了非递归的构造方式,给出了队列状态转换关系、Robot的典型流程图和详细的算法思想,运用了数据库和多线程编程技术。
Robot软件的采集策略是指当Robot搜索到一个文档后,下一步应该转移到哪一个文档的方法问题,它决定着Robot软件的采集性能。论文讨论了IP地址采集策略、深度优先采集策略、广度优先采集策略、深度-广度结合采集策略四种基于有向图的遍历算法并分析了各自的优缺点。Web上的超链结构是一个非常丰富和重要的资源,它独立于网页的语言和内容。论文研究了基于超链分析的算法中的BackLink算法、HITS算法和PageRank算法的原理、实现和存在的问题,并提出了一种对PageRank的改进算法。基于超链分析的算法能够有效地提高Robot的采集性能,减少获取网页的重复性,并对垃圾网页有较好的过滤性。对分别采用BackLink算法和改进前后的PageRank算法作为采集策略的Robot的性能做了实验比较,通过实验验证了改进后的PageRank算法能够更加准确地判断网页的重要性,有效地提高Robot的爬行效率。