面向多爬虫的监控系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lovefuture888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国网络技术的快速发展,互联网上的数据也成指数级的增长,人们越来越关注如何快速有效地从网络里提取出有价值的信息,使之在决策阶段起到作用。这给现在的搜索引擎技术带来了很大的挑战。而搜索引擎的数据源是来自于网络爬虫爬取的信息,一个搜索引擎搜索结果的数量和质量在一定程度上取决于网络爬虫爬取内容的数量和质量,而如何组织这些爬虫也成了一件能影响爬虫的爬取结果的事情。随着在服务器上部署的爬虫的增加,对爬虫监控系统的需求也越来越紧迫。监控管理系统的部署将会给爬虫的管理带来很大的方便。基于上述背景,本文提出了一个基于开源爬虫的监控系统的设计和实现方案,帮助爬虫管理员能在有效的时间内分析多个爬虫任务的状态,并能对多个分布式的爬虫进行控制,根据爬虫的状态远程地添加爬取任务等操作,提高了爬虫管理的效率,从而更好地为项目组其它的功能模块提供更好的底层数据支持。本论文基于Yii开发框架和开源的Java爬虫Heritrix,实现了一个面向多个分布式爬虫的监控系统。首先,研究了Yii开发框架和Heritrix源代码,进行了系统的需求分析,提出了面向多爬虫监控系统的逻辑架构方案和物理部署架构方案。其次,对系统的主要功能模块进行了划分,并对系统的主要工作流程进行了详细的分析。之后对各个模块进行了具体的实现,其中重点介绍了功能描述和工作原理。最后,本文针对所实现的监控系统进行了详细的测试,分别对各个功能模块和整体进行了详细的功能测试。对得到的测试的结果进行了分析,测试结果符合要求。除此之外,本文还对系统中不完善的地方提出了改进的计划。
其他文献
新型Cu/AC脱硫剂在工业锅炉烟气排烟温度(120℃ ̄250℃)下具有良好的脱硫活性。对不同载铜量的Cu/AC在200℃下的脱知性进行了评价,并利用TPD,TPO、XRD和EXAFS等技术,分别对Cu/AC脱硫剂进行了表征,以考查铜物种分散性对其低温
因传感器网络的快速发展,逐渐成为近年来研究的热点。由于节点资源十分有限、能量不能及时补给、网络极易受到攻击等诸多因素限制,传感器网络的研究正面临巨大挑战。因网络节
基于对隧道工程施工中灌浆法加固技术的应用探讨分析,论文从工程概况与公路隧道施工中裂缝产生的原因入手,对隧道工程施工中灌浆法加固技术的应用关键点展开重点研究,希望能
在干旱地区集中开采地下水,若开采不当,往往会产生地下水区域水位下降、天然野生植被退化乃至死亡等环境地质问题.通过水源地在不同开采年限下对地下水浅埋区(小于6m)水位下
结合实际,对绿色制造的新型机械制造工艺技术进行研究。对绿色制造新型机械制造工艺技术的应用机理进行了探讨,在分析机械加工工艺过程绿色制造方法的同时,对该技术的工艺优
建筑工程中型钢混凝土组合结构的应用,具有承载力强、抗震性好等优点。论文分析了型钢混凝土组合结构优势,具体探讨了此种组合结构类型与施工技术,围绕案例展开论述,以期可供
采用色质联用技术分析了流化床煤温和气化过程产生焦油的组成及其相对含量。结果表明:煤温和气化焦油主要含有BTX,PCX,萘以及C12-C20脂肪烃类等化合物,其中80%以上属于芳香族化合物。从而增加了焦
我国社会经济不断发展,社会各界都开始注重能耗问题,建筑行业也开始建设节能居住建筑,在建筑施工中利用太阳能采暖技术,可以达到显著的应用效果。论文分析了节能居住建筑应用
在道路桥梁施工中,干成孔是比较常见的钻孔施工方法,具有操作简单、易于控制、成本低廉等优点,在桥梁施工中发挥着重要作用。论文联系实际,对桥梁施工中的干成孔旋挖桩施工工
讨论了碳质材料孔结构特性和比表面积求取的方法,认为以CO_2为吸附剂、在298K温度下用气相色谱等温吸附技术测定孔结构参数和比表面积是简单易行的方法。给出了一组完整的孔