基于日志分析的增量主题爬虫研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:crazyliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量的互联网信息,传统搜索引擎在查找主题信息方面日益无法满足人们的要求,如何帮助人们及时准确地获取主题信息变得越来越重要,而面向主题搜索引擎技术正是为此应运而生的。主题搜索引擎是特殊化的搜索引擎,它只面向某一具体的领域或主题,比起传统搜索引擎能更准确,更广泛的搜集领域或主题信息。然而如何为领域、主题相关性的判定制定准确的规则,如何有效的分析过滤无关资源保留相关主题资源,如何扩大对主题资源的搜索的覆盖度,成了主题爬虫系统的研究重点。   本文首先通过与普通网络爬虫工作流程的对比,介绍了主题爬虫的工作原理,接着详细介绍了主题爬虫使用的关键技术,在此基础上,总结出影响主题爬虫准确度与效率的三个主要问题:爬虫主题表示、网页主题相关性判断和爬行策略。在深入分析主题爬虫关键算法的基础上,提出了一种基于日志分析的改进的网页主题相关度计算方法。该方法根据齐次连续时间马尔科夫过程的性质,通过计算网页间的转移概率矩阵的平稳分布,作为网页的用户兴趣度估计;结合网页分块算法,分别计算网页文本块的文本主题相关度和相关链接块的链接关系重要程度。通过综合文本主题相关度、链接重要程度和用户兴趣度这三个因素,提出一种改进的网页主题相关度计算方法,并通过实验测试,证明了改进的综合方法的准确度都高于这三个因素的单一使用。   爬虫作为搜索引擎的一个重要组成部分,需要长期运行,如何有效地保证本地镜像的“新鲜度”成为爬虫研究的一个热点问题。本文根据网页更新符合泊松过程的特点,提出了一种及时同步本地数据库与远程网站的方法。通过保存的有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率,并通过实验证明了基于泊松过程的爬虫调度策略的可行性。
其他文献
分布式一致性是分布式理论中非常重要的部分。随着互联网快速发展,分布式系统被广泛应用,系统功能越来越强大,结构越来越复杂,很多时候需要使用到一致性协调服务系统保证系统
随着计算机技术、网络技术日趋成熟以及信息化的普及,各种智能化家电设备不断涌入百姓家庭,数字化家庭网络的概念越来越受到人们的关注。其目的是打破各个家庭设备“信息孤岛
语音情感识别是情感计算领域的重要研究课题,是实现智能化人机交互的前提之一。语音情感识别的研究目前还处于一个起步阶段,对于如何提高识别速度和识别率已成为情感计算领域
电子商务是网络经济的重要体现。它以现代化信息手段代替传统交易过程中纸介质信息载体的存储、传递、发布等环节,从而在线地实现商品交易、服务交易以及交易管理等活动。本
在基于内容的图像检索领域中,颜色特征是应用最为广泛的视觉特征,一方面因为颜色是人眼识别图像的主要感知特征,另一方面,相较于其它几个低层特征,颜色特征对于图像的几何变
Internet网络传输和处理能力的大幅提高使得基于网络的应用越来越多,如远程教学、视频会议、数据分发和网络游戏等网络多媒体应用。这些多媒体应用有着数据量大、时延要求高
随着数据库和网络技术的迅速发展,XML已经成为网络上信息表达和数据交换事实上的标准。随着XML数据的不断增长,尤其是大规模XML数据的出现,对这些XML数据的有效管理和查询成
随着经济全球化与信息时代的到来,企业竞争的焦点逐渐向敏捷性转变,是否能够根据市场的需求快速做出反应已成为企业经营成败的一个关键因素。   本文以中小型制造业企业为研
目前,温度监控系统在很多工业行业起着相当重要的作用,各种各样的监控系统也层出不穷,温度监控系统也提供了越来越丰富的通讯服务功能。这些系统也是随着硬件卖给用户的。随
迁移工作流是近年来工作流管理研究的一个新方向,该方法基于移动计算范型构建了一个全新的工作流系统框架,该框架由迁移工作流引擎、工作位置和迁移实例三要素构成。迁移工作