Scrapy分布式爬虫搜索引擎

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ahutxhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,信息的获取与检索尤为重要。如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭建搜索引擎网站,将从知乎,拉钩,伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中,供用户搜索获取。研究结果表明分布式网络爬虫比单机网络爬虫效率更高,内容也更丰富准确。
其他文献
科技图书的校对虽然与以纯文字为主的社科图书的校对在本质上完全一致,即查找差错,但就操作过程而言,前者不仅要注重文字信息,更要关注数字、图表、版式等非文字信息的校对,复杂程
网络正在改变着我们的生活,网络也给出版业带来了前所未有的挑战和冲击.网络环境下信息处理和知识传播的新模式以及电子商务开拓的网络营销新途径,都给传统的出版业提出了新
本文拟通过总结定西公路总段近年来职工教育的状况,就强化职工教育培训、提升职工技能素质加以阐述,以供商榷。
出版业是朝阳产业.据美国华尔街对所有行业的分析,美国出版行业的投资回报率居第四位,仅排在电影电视业、计算机通讯和航天业之后.
本文首先通过基层一线员工对验电器多年使用情况的反馈,归纳出旧式验电器在日常操作中存在的四个缺点。其后再进一步通过研究分析,对目前旧式验电器进行改良,并深入阐述新型验电