基于Actor模型的广域分布式爬虫的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ppsl21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术与网络技术的迅猛发展将我们带入了一个全新的互联网时代。网民们每天在互联网上可以产生大量的行为数据。本课题实现的基于Actor模型的广域分布式网络爬虫系统就是用于获取互联网上大量公开数据的一个基础框架系统。该系统通过搭建一套完整的分布式爬虫框架,为爬虫的开发提供了一体化的服务。得益于开源社区的活跃,目前已经有了一些比较成熟的开源爬虫系统,其中以Java版的Heritrix/Nutch和Python版的Scrapy较为被大家熟知。这些框架大都功能齐全,文档丰富,但是也存在一定的问题,在特定场景下,可能并不是最佳的选择。且由于长期的发展,其代码规模也十分庞大,在出现问题时较难诊断。另外,它们对于分布式的支持要么比较薄弱,要么依赖于其它分布式框架,在现今机器资源充足的条件下,显得比较单薄。在此背景下,本课题实现的基于Actor模型的广域分布式爬虫框架,是一个供爬虫开发者使用的系统。在该框架之上,开发者可以快速有效的完成一个分布式爬虫任务。本课题从实际的爬虫任务的功能和性能需求出发,制定了总体的设计方案,并以此为基础设计了一套完成的爬虫框架。从总体上看,本课题实现的系统分为五个模块,包括Master模块,Slave模块,Client模块,Worker模块和存储模块。其中,Master模块负责框架整体的运行;Slave模块负责在Slave节点建立运行进程;Worker模块负责具体页面的爬取解析和存储;Client模块负责作业的提交和运行时的操作管理;后端存储模块提供了数据的存储方式。各个模块在功能和运行态上相互独立,模块间的通信主要通过HTTP方式进行。在各个模块内部,又包含多个子模块。模块内各个子模块之间主要通过Actor模型进行消息通信。本文从详细设计与实现角度对系统进行了全面的剖析,并对系统进行了功能和性能测试。最后,本文对本课题完成的系统做了总结和展望,提出一些可行的改进方案。
其他文献
目的研究小儿内科病房护理管理工作中应用人性化管理模式的效果。方法以我院小儿内科病房的护理管理工作为研究对象,自2014年1月1日起实施人性化管理模式,将2013年1月~12月的护
尿蛋白的测定方法有很多种,有的用于定性,有的用于定量,由于方法学的不同,测定结果会出现差异,提示临床上做相关检测时要根据不同的目的选择相应的测试方法,尤其是干化学测定
<正>近年来,在水产养殖中出现以肚子肥大、体色苍白或发黄、肌肉松弛、活力很小、脱壳困难、抗病力低下为主要特征的"亚健康水产养殖动物",与健康类型相比其外观、体色、活力
<正>棚圈养羊可解决日益突出的农牧矛盾,又可开辟饲草资源,使农作物秸秆综合利用,减少因焚烧秸秆造成的环境污染;与放牧相比,羊只生长快、出栏早、膘情好、出肉率较高、经济
俄罗斯方块是一款十分经典的游戏,它的主要运行规律为对系统随机产生的图形进行上下左右移动、旋转等操纵,使之排列成完整的一行或多行并且消除得分。它上手容易,难度循序渐
目的近年来食管鳞癌的预后虽然有所改善,但其结果仍不能令人满意。本研究回顾性分析手术根治切除的食管鳞癌患者的临床病理资料,以探讨影响患者术后生存的主要因素。方法收集
近年来,我国畜牧业得到迅猛发展,畜牧业占农业经济的比重越来越大,其现代化、集约化程度愈来愈高。其中养鸡业在畜牧生产中占有很大的比例,而在养鸡生产中,生产环境污染给鸡
本文介绍了自行研制的具有双阳极特殊结构的等离子体喷枪,并对其产生的大气压直流等离子体射流的热力学特性、电弧脉动特性和动力学行为、光谱特性、热流分布和脉动行为进行了
NHK World TV的发展历程1994年,日本为提高国际传播能力,修改了《广播法》,将国际传播划入NHK的业务范畴。1995年,NHK开始通过JapanTV向北美、欧洲的电视台提供节目。1998年4月,面
黄翔鹏先生在提出“同均三宫” 理论之时,将“均” “宫” “调” 的概念阐发为三个层次.但从古代文献的记栽来看,“均”表示调高,“宫” 与“调” 既可表示“调高”,又可表