企业级搜索引擎性能优化技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:Okira_lacusO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化飞速发展的今天,企业、政府、学校等组织的内存在多种信息源。在这种状况下,能在组织内更快、更准确地搜寻自己需要的信息具有现实的意义。研究和实现企业级搜索引擎的性能优化技术,将使得各个组织能以较小的硬件投入支持较高的的性能,实现对企业内外部数据的高效获取和有效组织。 本文设计并实现了一套并行检索子系统,实现了适合于多机协同计算的并行索引查询算法。该系统由多个Index Server节点、一个Broker节点构成,这两种计算节点互相配合,协同完成用户提交的查询请求。通过并行计算,提高系统的性能及能处理的数据量。考虑了Index Server失效给系统带来的影响,提出了混合的冗余备份机制,不同的冗余备份策略的组合,能很好地解决Index Server失效的问题,同时也能提高系统的吞吐量。 本文还基于已有的木棉检索系统,设计并实现了基于Map/Reduce计算框架的并行索引构建算法和并行索引消重算法。通过Map/Reduce框架加快索引的构建和消重的过程。此外基于木棉搜索引擎数据采集子系统的实现,设计了并行检索子系统索引更新的策略。 本文对Map/Reduce并行计算框架和并行检索子系统进行了完整的性能测试,在对检索子系统的测试中着重考察了以下各方面:系统可扩展性、系统的吞吐量、数据量的影响、冗余结构性能、并行架构开销、Cache对系统性能的影响。实验数据表明相对于单机系统,本文中所用的并行检索结构能有效降低系统的响应时间,提高系统能处理的数据量,增大系统的吞吐量。 最后,本文基于实验数据对并行体系结构带来的额外时间开销的构成情况进行了讨论,并阐述了Broker端缓存对系统整体性能的影响。
其他文献
Gossip算法是针对非结构化对等网络定位资源效率不高、采用泛洪查询占用较多带宽等问题的一种可行解决方案。每个收到要传播的信息的节点从它的邻居列表中随机选择一定数目的
软件测试是目前保障软件质量最主要和最有效的方法。它是为了发现程序中的错误而执行程序的过程。手工测试繁琐而复杂,不仅要耗费大量时间和成本,还易出错。因此,自动化测试
由于嵌入式系统的专用性和多样性,在嵌入式系统上部署Linux系统一般都需要进行繁琐的移植工作,探索在嵌入式平台上部署嵌入式Linux系统的一般原理和方法,可以减少移植工作的盲目
90年代初以来,大量的对网络流量的测试和分析发现,传统网络流量模型在描述实际网络业务时,忽略了网络流量的一个重要的特性-自相似性。实际上,采用自相似模型或分形模型能够更准
随着计算机的广泛应用和互联网技术的迅猛发展,社会的信息总量呈指数级增长。面对信息爆炸带来的挑战,亟需一些智能化的工具来帮助用户获取真正有用的信息,信息抽取正是在这种背
重复数据删除技术可以大幅度削减重复数据,在传输之前就将数据量减少到较低水平,从而节省了网络带宽和存储空间。由于备份系统中存在大量冗余数据,在备份环境中使用重复数据删除
随着Internet的迅速发展,大型的企业信息化系统以及以B2C和C2C等模式为代表的电子商务领域的应用逐渐成为当今软件技术的主流趋势和竞争焦点。在该领域,作为信息系统基础平台的
IP组播技术是一种有效的多目标传输机制,具有广阔的应用前景。但是目前的组播协议缺乏安全机制满足组播应用的安全性要求,每一台主机都可以通过发送IGMP(因特网组管理协议)报
自上世纪60年代软件危机始,涌现了一大批软件成本估算理论和方法。单一的估算方法具有自身的优势和适用的估算环境。但不存在一种适应所有估算环境的估算方法。于是,集成各软件
在日趋错综复杂的国家海洋权益保护行动中,自动海面态势感知能力显得愈发重要。其中一项关键技术是实时海面船只类型自动检测与识别。由于传统形态学图像操作算子的特征提取方