基于Hadoop的分布式搜索引擎研究与实现

来源 :太原理工大学 | 被引量 : 88次 | 上传用户:cxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式搜索引擎是一种结合了分布式计算技术和全文检索技术的新型信息检索系统。它改变了人们获取信息的途径,让人们更有效地获取信息,现在它已经深入到网络生活的每一方面,被誉为上网第一站。目前的搜索引擎系统大多都拥有同样的结构——集中式结构,即系统所有功能模块集中部署在一台服务器上,这直接导致了系统对服务器硬件性能要求较高,同时,系统还有稳定性差、可扩展性不高的弊端。为了克服以上弊端就必须采购极为昂贵的大型服务器来满足系统需求,然而并不是所有人都有能力负担这样高昂的费用。此外,在传统的信息检索系统中,许多都采用了比较原始的字符串匹配方式来获得搜索结果,这种搜索方式虽然实现简单,但在数据量比较大时,搜索效率非常低,导致用户无法及时获得有效信息。以上这两个缺点给搜索引擎的推广带来了很大的挑战。为应对这个挑战,在搜索引擎系统中引入了分布式计算和倒排文档全文检索技术。本文在分析当前几种分布式搜索引擎系统的基础上,总结了现有系统的优缺点,针对现有系统的不足,提出了基于Hadoop的分布式搜索引擎。主要研究工作在于对传统搜索引擎的功能模块加以改进,对爬行、索引、搜索过程中的步骤进行详细分析,将非顺序执行的步骤进一步分解为两部分:数据计算和数据合并。同时,应用Map/Reduce编程模型思想,把数据计算任务封装到Map函数中,把数据合并任务封装到Reduce函数中。经过以上改进的搜索引擎系统可以部署在廉价PC构成的Hadoop分布式环境中,并具有较高的响应速度、可靠性和扩展性。这与分布式搜索引擎中的技术需求极为符合,因此本文使用Hadoop作为系统分布式计算平台。此外,系统使用了基于倒排文档的全文检索技术,构建了以关键词为单位的倒排索引模块,同时结合TF-IDF和PageRank算法,改进了网页评分策略,优化了搜索结果。最后,详细分析了在应用Map/Reduce编程模型实现系统模块过程中遇到的问题,及其解决方案。构建了一个4节点的小型分布式搜索引擎系统,通过对网络资源的爬行、索引和检索,以及对系统进行可靠性和扩展性测试,获得实验数据。在分析实验数据的基础上,验证了所提出的基于Hadoop的分布式搜索引擎的合理性。
其他文献
从水资源量及其开发利用、区域发展和生态环境3个方面对烟台市经济社会可持续发展的水资源支撑能力进行了定量分析和判断。(1)总体来说,烟台市的水资源和人口、经济、耕地以
高温超导变压器的漏磁场降低绕组中的临界电流并增加交流损耗;超导材料的零电阻特性使得绕组限制环流的能力极低.因此,在设计超导变压器时,进行磁场分析和环流计算显得尤其重
通过调研国内外低碳社区的发展历程及相关案例,全面阐述国内外低碳社区整体发展现状和存在的问题,分析探讨低碳社区的技术体系及评价体系,在此基础上阐述了上海市徐汇区国家
目前我国企业有一个很显著的特征,就是股东与经理信息不对称。股东的解雇或公司控制权市场的接管威胁会影响到经理职位的稳固与否,使得他们具有强烈的固守职位动机,必然极力
从石亭江水灾泛滥引发思考,寻找原因,认为人为水土流失是诱发水灾的重要原因,指出水土保持的重要性及实施可持续发展战略的必然性
1现状以山西省为例,省级卫生防疫站平均每年要签发150份文件,各地市卫生防疫站平均签发100份文件,科级以上的县卫生防疫站平均每年也要签发15~30份文件,由此推算,仅山西省每年
本论文设计合成了一类含硫醚结构的新型聚芳醚酮,并且通过后磺化反应,采取98%的浓硫酸作为磺化试剂,将磺酸基引入到聚合物主链中,并通过控制反应时间来得到不同的磺化度。磺
"第一时间"原则也称"及时性"原则,它强调快速回应,强调信息发布的速度。其作用包括"阻遏不良信息扩散的监控力,以最快的速度告诉民众真实的情况"。
研究背景:抑郁是一种常见的负性情绪,在高职生群体中,随着竞争的激烈和就业的压力,高职生抑郁的发生率呈现不断增长的趋势,中轻度抑郁的学生在数量上远远超过重度抑郁症患者,
干式空心电抗器是电力系统中广泛应用的重要设备之一,主要用于补偿容性电流、限制合闸涌流与短路电流、滤波、平波等作用。干式空心电抗器的设计比较复杂,要综合考虑磁场、电