基于Scrapy框架的分布式网络爬虫的研究与实现

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:aaaj199054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、Mongo DB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫。最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略。
其他文献
我国在上个世纪80年代和90年代修建的水泥混凝土路面有一部分已接近或超过设计年限,没到设计年限的路面也由于设计、材料、施工质量以及交通量剧增、汽车严重超载等因素,造成路
计算机技术的飞速发展,促进了计算机在档案工作中的迅速应用和普及,十年前还不为人所知的Internet,现在已悄然进入了档案馆;十年前被视为神秘之物的电子文件,已在办公自动化领域大
针对于目前沥砼路面常常出现开裂、泛油、松散、坑槽等常见病害,从原材料,施工过程、施工工艺、材料组成设计、规范陈旧等不同方面提出了改进意见和措施。
随着立体图像在社会各个领域的发展与普及,三维资源的需求逐步提升,而将二维图像转换为三维图像是解决三维资源稀缺的重要手段。二维图像三维化技术的关键在于深度信息的获取。分析了两种重要的深度提取线索,运动线索和散焦模糊线索。为了弥补这两个线索在深度提取的局限性,提出了两种线索的深度融合策略。实验结果表明,这两种线索采用分段线性融合的方法能提高生成深度图的质量。
美术学科是学生欣赏美、创造美的学科,但在学生绘画过程中常常会由于绘画技巧的缺乏,影响和制约着对美的表现力度。教师可以借助多媒体以直观展示克服绘画困难的信心;借助示范化