【摘 要】
:
基于Nutch开源搜索引擎框架,本文对其所基于的Hadoop平台提出了一种基于数据块动态分配的策略,从而实现了文件的分块存储,同时改进了Nutch数据采集子系统的任务调度策略和存
论文部分内容阅读
基于Nutch开源搜索引擎框架,本文对其所基于的Hadoop平台提出了一种基于数据块动态分配的策略,从而实现了文件的分块存储,同时改进了Nutch数据采集子系统的任务调度策略和存储支持,并在该存储上执行并行计算,有效地平衡了集群的负载。本文建立了动态块分配机制的数学模型,并给出了计算公式,同时基于开源BDB作为子系统存储支撑,给出了改进Nutch的数据采集子系统构设计模型,并实现系统的集成。通过实验对比的方式,对Nutch搜索引擎系统改进前后分别进行配置并运行,收集测试结果数据。实验结果表明,数据块动态分配能够平衡计算集群中各个节点执行任务数和执行任务时间,从而改善了整个系统压力分布,实现了负载均衡。
其他文献
半监督降维是近年来半监督学习领域的研究热点之一。当今流行的半监督降维方法可以分成三类:基于类别标号的方法、基于成对约束的方法和基于其他监督信息的方法。其中,成对约
目前,人脸识别技术已经被应用于我们的日常生活当中的某些领域,但是该技术在手机端身份验证和支付这些场景中的应用还没普及,一方面是由于人脸识别准确度面部姿势、光照、表
信息的爆炸式增长,使得信息检索系统成为用户查找信息的主要工具。如何使检索系统理解用户的搜索意图,找到符合用户要求的数据,将相关度高的检索结果排在前面推荐给用户,成为
服务质量路由(QoSR)是一种基于网络可用资源与用户请求的QoS要求进行路由的机制,它是一种的动态路由协议。QoSR的目标就是为每一个用户发送的QoS连接请求,找到满足其QoS要求
组播是一种高效的信息交互模式,其可以降低网络传输时延并能达到较高的可扩展性。很多网络应用都使用了组播技术,如数字媒体分发、股票行情服务、电视和网络广播付费、视频会
近年来,全球经济持续高速增长,引发了能源消费的大幅度增加,世界各国的能源消费结构都倾向于煤炭的消费。这导致了煤碳开采力度的大幅度增加。但是在超能力开采煤矿的过程中,
在数据挖掘和机器学习的基于距离的各种技术中,例如基于距离的聚类和基于距离的分类,如何度量数据间的相似性已经成为了一项基础任务。对于某一具体问题,采用合适的相似性度
主动数据库相对于传统的数据库具有某种监视和报警功能,能够主动处理异常情况,选择适当的干预措施,并且具有自动恢复能力。主动数据库中实现主动机制的关键之一就是通过对事件的
零码软件生产平台是一个柔性软件产品线,把应用软件产品开发由系统工程转化成流程化的作业,通过完全图形化的界面即可完成应用程序的开发,真正实现了“零编码”软件开发。在
近些年,网络发生了极大的变化,无论是在表现形式上还是在运行方式上,我们都在无形中进行着一种革命。用户的体验欲望在膨胀,这就迫切地要求我们在整个软件工程中,软件的构建