基于Docker集群的分布式爬虫系统的设计与实现

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:pluto529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今的世界正处于互联网信息飞速增长的时代,常见的搜索渠道如百度等搜索引擎只能给我们提供一些杂乱无章的浅显信息,仅根据相关度等因子显示而未经过算法针对性的筛选。网络爬虫是网页信息抓取的一种常用手段,但常见的单机网络爬虫系统效率较低,虽然后续改进的利用VM做分布式系统的效率有所提升,但是离用户真正所期待的速度还有很大的差距。传统的爬虫系统对于URL去重和页面内容去重等功能需求不够友好,一些简易爬虫系统还会经常被网站的反爬虫系统限制。为了有针对性地快速获取有效信息,本文设计了一个基于Docker容器集群的分布式网络爬虫系统。此系统基于Scrapy-Redis框架,利用Redis存储爬取解析到的URL,利用MongoDB存储爬取解析到的网页内容,采用主从混合分布式系统部署。经实验证明,此系统能够有效地爬取用户需要的信息且速度较分布式VM系统有很大提升。本文所做的工作及创新点如下:(1)深入研究了BloomFilter去重算法,在原算法的基础上加以创新,提出了二阶段BloomFilter去重方案,使其具备更低的误判率。(2)改进了通用的爬虫框架,使其更好地支持分布式系统。增加了页面内容查重模块,并优化了在海量数据场景下的查询时间,提升了爬取工作的效率和有效性。(3)深入研究了大型网站对于爬虫的常见限制措施,对于爬取过程中经常遇到的反爬虫机制做了针对性的处理。(4)深入研究了基于Docker容器的分布式集群系统,探究了Kubernetes集群管理平台,部署了分布式爬虫系统。
其他文献
随着人们生活水平的提高,竞争压力的逐增,家庭越来越重视儿童兴趣的培养和人格的塑造,为儿童安排线下舞蹈音乐培训班和补课班,同时在儿童碎片化时间中安排线上数字阅读教育。另外当前中国处于疫情时期,儿童不能到学校上课,只能在家里通过网络平台学习,这对于儿童数字阅读平台来说是其发展与创新的机遇时期。儿童数字阅读付费平台具有简单和智能的特性,孩子能掌握使用方法,进行自主阅读,家长可以在适当的时候给予帮助和引导
多媒体技术在学习领域中的应用,是学习现代化的一个重要标志。多媒体技术即可用于一般课堂教学又可用于个别化学习。提出了利用多媒体技术学习和保证学习成功或达到预期效果需
目的:比较胺碘硐及与氯沙坦联用对阵发性房颤患者房颤复发预防的远期效果。方法:85例阵发性房颤,随机分为胺碘硐组(Ⅰ组n=40)和胺碘硐+氯沙坦组(Ⅱ组n=45),随访时间为2年,初级终点为房
玄参科阴行草属(Siphonostegia)全世界共4种,1种产小亚细亚,3种分布于中亚与东亚,我国有2种:阴行草(Siphonostegia chinensis Ben.h)和腺毛阴行草(S.Moore)。阴行草在我国大部均有分布,北
以正硅酸乙酯和氨水为原料,采用Stober法制备单分散SiO2胶体粒子,利用纳米粒度Zeta电位测定仪测定SiO2胶体粒子的Zeta电位和粒度。研究结果表明,电解质对胶体粒子 Zeta电位影响
目的:观察灵芝孢子对致痫大鼠血清叶酸、血清钙及大脑皮质钙含量的影响。方法:采用放射免疫分析法测定血清叶酸含量;用原子吸收分光光度计测定脑组织及血清Ca^2+含量;结果:三组大鼠
本文以种种事例说明利用实际经验对减少一个新项目出现意外事故的重要性,并介绍如何利用实际经验。
针对目前我国高职院校汽车检测与维修专业教学中存在的问题,以我院汽车检测与维修专业教学改革为例,阐述了项目教学的涵义及其具体实施方法、合理选取教学实施项目的依据,对于高
日本宇宙开发事业团正在研制的H-Ⅱ运载火箭能将2.2吨的卫星送入地球静止轨道。H-Ⅱ的第一级推进系统主要包括分级燃烧循环式LE-7发动机和贮箱系统,贮箱可装载85吨可用的液氧
高中阶段是数学教学的关键时期,更是一个难点时期.所谓关键时期,是因为高中数学在学生的整个数学学习过程当中起到一个承上启下的作用.所谓难点时期,则是由于高中数学当中的知识数