论文部分内容阅读
随着社会信息化节奏的不断加快,政府部门信息化持续推进,用户规模不断扩大,数据量也呈几何倍数的增长,使信息系统的全文数据检索能力急剧下降。在这样的背景下,我们迫切需要一种运行稳定、经济可行、易于管理的存储和计算平台,能够使用尽可能低的成本完成数据与计算双重密集型任务。本文即论述了如何通过构建基于虚拟化技术的Hadoop架构全文检索引擎解决以上问题。传统的全文型数据库在进行大规模数据处理的时候,在检索和处理方面都存在瓶颈,需要通过使用分布式检索引擎等方法解决这一问题,目前较为主流的基于Hadoop架构的分布式检索引擎在效率上可以满足这一要求,但是在系统稳定性、硬件资源利用率上还存在一定的问题,需要通过引入虚拟化技术解决这些问题。为解决这些问题,作者完成的主要工作如下:(1)分析了硬件辅助的完全虚拟化技术和虚拟化平台的组成和功能,及实现虚拟化的其他工具,分析了Hadoop相关的分布式文件系统和MapReduce分布式处理模型的设计目标、结构组成和运行流程,接着分析了应用Hadoop实现搜索的组件功能;(2)建立全文检索引擎并优化中文分词方法,对于检索调度进行优化,提高系统的检索效率;(3)通过虚拟化技术搭建分布式检索引擎主节点的备份节点,为分布式检索引擎的主节点单点失效问题带来一个可行的解决方案,使全文检索引擎获得高可用性;(4)通过虚拟化技术使系统能够有效利用硬件设备多核资源,使系统整体资源利用率更高;本文分析研究虚拟化和Hadoop架构相关技术,证明将虚拟化技术和Hadoop架构的全文检索引擎相结合能够较好地达到我单位数据中心在建设和使用上各个维度的要求。通过实施,验证了基于虚拟化和Hadoop技术能够提供一种可跨硬件平台的稳定高效的全文检索引擎的实现方法,解决分布式检索引擎存在单点故障隐患和运算资源无法充分利用以及构建实施困难等方面的不足。