并行爬虫中的负载平衡模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wzhjxl3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,搜索引擎成为获取信息的必需工具,而网络爬虫作为网页收集工具是搜索引擎的核心组成部分。随着互联网信息量的增大,对搜索引擎网页收集的全面性和及时性提出了更高的要求,因此爬虫的性能面临着巨大的挑战。不仅要求能够尽可能高效率的下载网页,而且要求能够尽量少的消耗计算资源和服务器资源。  本文围绕着提高网络爬虫性能的核心需求,在深入研究了爬虫的工作原理和相关技术的基础上,从两个角度研究了爬虫的动态负载平衡:爬虫各任务并发执行时的内部负载平衡和对网络利用以及不同web服务器请求频率的外部负载平衡,从多个方面较大提升了爬虫的运行性能。  本文的主要成果可归纳为以下几个方面:  首先,在对爬虫相关技术进行深入研究的基础上,提出了基于流水线多任务并行的爬虫体系结构,以及采用多线程和缓冲区的实现方式,并论证了采用流水线多任务并行对性能的提高以及可能造成系统运行不稳定的问题。  其次,研究了多任务并行爬虫系统中的关键问题——模块间负载平衡问题,提出了流水线负载平衡模型(PLB),以及通过对线程数量以及缓冲区大小进行动态调整来达到平衡的方法,并介绍了所采用的多种优化手段。  然后,通过服务器负载平衡的思想研究了如何在限定带宽的条件下进行爬行的问题。首先提出了基于站点的下载速度预测对带宽控制的原理与方法,并根据时间序列函数建立了下载速度预测模型。同时在研究“礼貌性”爬行问题的基础上,重点介绍了面向服务器负载的礼貌爬行思想与服务器负载的探测方法,得到了基于服务器负载的站点最大访问频率计算模型。最后提出了在限定带宽条件下实现基于服务器负载的礼貌爬行策略,包括对每个服务器访问频率的计算算法,以及基于流水线并行方式的实现。  最后,基于上述的理论研究成果,本文介绍一个高性能的分布式网络爬虫系统的设计开发。
其他文献
移动IP技术的出现,使人们得以在不改变移动节点IP地址的情况下,实现了对本地系统的远程访问,简化了网络的管理。但是,在移动IP传输数据的过程中,数据随时有可能受到攻击者的拒绝服
在医学图像处理领域,肺部肿瘤的分割是一项具有实际应用价值的课题。基于精确的肺部肿瘤分割结果,可以进行相应的三维重建、分析解剖结构和计算肿瘤体积等相关研究,从而为医生提
随着信息技术的迅速发展和Internet的普及,Web日志资源越来越丰富。如何充分利用这些资源,从中提取出用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用
空值的研究是关系数据库领域的一个重要研究方向,具有重要的理论价值和应用价值。经典的二值逻辑和多值逻辑在空值的表示和处理上仍有不足,随着模糊数学理论体系的建立,人们
随着科学技术的飞速发展,基因测序的成本不断减少,目前已有成千上万物种的基因组被成功测序。由于一个生物体的生物学功能密码往往隐藏在它的基因组序列中,并且在这些密切相关的
随着web技术的发展,各类网站风起云涌,网站给人们在信息利用与资源共享方面带来了极大的方便,同时也面临着被攻击的危险。事实证明,从互联网出现的时刻开始,安全隐患就同时存在。
自从BT(BitTorrent)在网络中应用以来,其发展之迅速出乎人们的意料之外。它独特的下载方式,快速高效的下载速度确实给人们带来的巨大的方便,极大地促进了人们共享资源。但是,它也
机器人在未知环境中探索,一个基本的要求是机器人能够决定自己在环境中的位置,这可以在给定地图的前提下,辅助一些传感器完成。但是,很多时候,先验的地图并不存在,需要机器人
水电故障纷繁复杂,传统水电仿真系统中的推理机制已不能满足实际需要,使用数据挖掘进行故障分类来代替原有的推理机制是对本领域新的尝试。通过水电仿真系统的开发,人们意识到传统的故障仿真功能培训学员意义有限,而且人为的设计并用计算机程序实现水电故障很难保证其准确性,这些缺陷催生新技术的应用。应用数据挖掘技术的支持向量机方法来进行水电故障分类研究对水电仿真系统的优化以及实用性均具有重要的现实意义。本文首先将
嵌入式多媒体技术是目前国内外研究的热点,尤其是嵌入式播放器已经在许多产品中使用。伴随着计算机软硬件技术的飞速发展,对嵌入式播放器软件的要求也越来越高。现在流行的嵌