论文部分内容阅读
面对海量的互联网信息,传统搜索引擎在查找主题信息方面日益无法满足人们的要求,如何帮助人们及时准确地获取主题信息变得越来越重要,而面向主题搜索引擎技术正是为此应运而生的。主题搜索引擎是特殊化的搜索引擎,它只面向某一具体的领域或主题,比起传统搜索引擎能更准确,更广泛的搜集领域或主题信息。然而如何为领域、主题相关性的判定制定准确的规则,如何有效的分析过滤无关资源保留相关主题资源,如何扩大对主题资源的搜索的覆盖度,成了主题爬虫系统的研究重点。
本文首先通过与普通网络爬虫工作流程的对比,介绍了主题爬虫的工作原理,接着详细介绍了主题爬虫使用的关键技术,在此基础上,总结出影响主题爬虫准确度与效率的三个主要问题:爬虫主题表示、网页主题相关性判断和爬行策略。在深入分析主题爬虫关键算法的基础上,提出了一种基于日志分析的改进的网页主题相关度计算方法。该方法根据齐次连续时间马尔科夫过程的性质,通过计算网页间的转移概率矩阵的平稳分布,作为网页的用户兴趣度估计;结合网页分块算法,分别计算网页文本块的文本主题相关度和相关链接块的链接关系重要程度。通过综合文本主题相关度、链接重要程度和用户兴趣度这三个因素,提出一种改进的网页主题相关度计算方法,并通过实验测试,证明了改进的综合方法的准确度都高于这三个因素的单一使用。
爬虫作为搜索引擎的一个重要组成部分,需要长期运行,如何有效地保证本地镜像的“新鲜度”成为爬虫研究的一个热点问题。本文根据网页更新符合泊松过程的特点,提出了一种及时同步本地数据库与远程网站的方法。通过保存的有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率,并通过实验证明了基于泊松过程的爬虫调度策略的可行性。