基于Hadoop的分布式搜索引擎研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:sebeer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网页数量的激增,网络上的数据呈几何增长,用户获取有用的信息变得困难。在这样一个大的环境下,搜索引擎成为了互联网上最重要的Web应用程序,它几乎成为了大部分网络用户的主要入口。随着互联网上数据的爆炸性增长,传统的技术架构已经越来越不适应目前海量数据处理的要求。  由于互联网上的网页数以十亿计,面对海量的网页数据,搜索引擎的架构也发生了变化,从传统的集中式搜索引擎过渡到了分布式搜索引擎。起初,开发人员要构建分布式搜索引擎是非常困难的,因为开发人员必须面对系统底层的处理细节,使得无法集中主要时间和精力在搜索引擎本身的架构上。随后,搜索巨头Google公司提出了MapReduce分布式编程模型,并发布了GFS/MapReduce/Bigtable三篇论文,DougCutting在此基础上实现了开源的分布式计算平台Hadoop。Hadoop提供了MapReduce编程框架,使得开发人员可以不用关心系统底层的细节,只需要将精力集中在搜索引擎的架构实现上。  本文将基于Hadoop这个开源的分布式计算平台搭建起分布式搜索引擎系统,利用Map/Reduce编程模型设计主要系统模块,同时充分利用分布式系统下已有的资源,组织更为庞大的计算网络,满足搜索引擎对计算能力、稳定性和扩展性的需求,并综合利用TF-IDF和PageRank评分策略以及用户反馈优化搜索结果。
其他文献
在对天涯社区近11年来以“图书馆”为标题的364篇帖子进行文本分析时分析了应注意的问题。分析发现,公众视图书馆为追求知识的、高雅、宁静、安全的殿堂,同时也是一个难得的
图书情报人员新型服务能力与先进知识服务工具体验培训班一、培训对象:具有一定信息检索基础和数据库检索基础的图书情报人员。二、培训目标:本课程在学术信息搜索、科技文献
莫友芝的版本目录工作主要集中在晚年,本文着重对莫友芝晚年文献活动从访书、刻书、理书三条主线进行梳理和归纳,进而探讨莫友芝版本目录成就的促成因素,并归纳为以下三个方面:当
运用复杂适应系统理论构建公共危机网络信息扩散的政府应对仿真模型。该模型以现实为基础,以有限信任Deffuant模型为依据,由网民、网络媒体、政府及它们之间的交互规则组成。
进入21世纪以来,开放获取运动在推动知道广播传播、增强公众获取知识的权利等方面扮演着愈发重要的角色,有关开放获取的各种实施战略、政策、模型以及实践活动也在不断发展。
医疗信息以及医护人员获取信息的行为是医疗信息管理的两个方面。一方面,医学信息种类繁多,需要应用不同的信息管理手段,才能帮助医护人员有效获取有用信息;另一方面,医护人员获取
最近十年,世界各国政府、图书馆等社会文化教育机构相继创立积极有效的阅读推广机制、开展各式各样的阅读推广活动以应对全球阅读率普遍下降这一问题,建立终身学习型社会也成了
随着信息网络化和互联网技术的快速发展,传统营销方式已经无法满足现代企业发展的需要。网络营销作为网络时代的新型营销方式,逐渐成为房地产行业未来发展的新方向。面对市场经
少年儿童图书馆是青少年的第二课堂,培养青少年的信息意识,提高青少年的信息能力,全方位地提高青少年的信息素养对于青少年终身学习能力的提高有着至关重要的作用,因此,少儿图书馆
我国出版业市场逐步对外开放后国外科技期刊出版商带来的竞争与挑战愈来愈大,尤其在出版企业体制改革之际,一部分具有市场主体地位的出版单位意识到开展科技期刊的市场经营的重