基于虚拟化技术的HADOOP架构全文检索引擎的设计与实现

被引量 : 0次 | 上传用户:woshigezuiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化节奏的不断加快,政府部门信息化持续推进,用户规模不断扩大,数据量也呈几何倍数的增长,使信息系统的全文数据检索能力急剧下降。在这样的背景下,我们迫切需要一种运行稳定、经济可行、易于管理的存储和计算平台,能够使用尽可能低的成本完成数据与计算双重密集型任务。本文即论述了如何通过构建基于虚拟化技术的Hadoop架构全文检索引擎解决以上问题。传统的全文型数据库在进行大规模数据处理的时候,在检索和处理方面都存在瓶颈,需要通过使用分布式检索引擎等方法解决这一问题,目前较为主流的基于Hadoop架构的分布式检索引擎在效率上可以满足这一要求,但是在系统稳定性、硬件资源利用率上还存在一定的问题,需要通过引入虚拟化技术解决这些问题。为解决这些问题,作者完成的主要工作如下:(1)分析了硬件辅助的完全虚拟化技术和虚拟化平台的组成和功能,及实现虚拟化的其他工具,分析了Hadoop相关的分布式文件系统和MapReduce分布式处理模型的设计目标、结构组成和运行流程,接着分析了应用Hadoop实现搜索的组件功能;(2)建立全文检索引擎并优化中文分词方法,对于检索调度进行优化,提高系统的检索效率;(3)通过虚拟化技术搭建分布式检索引擎主节点的备份节点,为分布式检索引擎的主节点单点失效问题带来一个可行的解决方案,使全文检索引擎获得高可用性;(4)通过虚拟化技术使系统能够有效利用硬件设备多核资源,使系统整体资源利用率更高;本文分析研究虚拟化和Hadoop架构相关技术,证明将虚拟化技术和Hadoop架构的全文检索引擎相结合能够较好地达到我单位数据中心在建设和使用上各个维度的要求。通过实施,验证了基于虚拟化和Hadoop技术能够提供一种可跨硬件平台的稳定高效的全文检索引擎的实现方法,解决分布式检索引擎存在单点故障隐患和运算资源无法充分利用以及构建实施困难等方面的不足。
其他文献
2017年,各地民政部门在党委、政府的领导下,以习近平新时代中国特色社会主义思想为指引,深入贯彻落实中办、国办下发的《关于改革社会组织管理制度促进社会组织健康有序发展
随着技术的发展,采用高强度难变形材料超薄板制成的板金零件越来越多,而且成形件的三维型面日趋复杂,对这些零件的尺寸精度及表面质量,尤其是厚度均匀性的要求越来越高,这就
改革开放以来,中国的经济、文化快速发展,都市化进程加快,都市生活成为主旋律,人们的生活发生着日新月异的变化,中国工笔人物画家们的创作思维观念和内心情感也随之发生变化,带有更
阐述了空心板铰接缝的构造形式及受力特点,特别是对于铰接缝的破坏机理进行了详细论述,从设计与施工两方面提出了空心板铰缝的防治措施,以减少空心板铰缝破坏,从而提高公路桥
<正>在我国不断实行新课程改革的背景下,多样化教学成为了我国基础教育中的一个全新的教学理念,各种教学方法被应用到各门学科的课堂教学中来.初中生物的课堂教学在这场教育
突跳式温控器是实现对温度进行控制的开关元件,广泛应用于饮水机、电饭锅、微波炉、电烤箱等家用电器,其可靠性直接影响到整个电器的工作性能和产品档次。目前,国内温控器产品的
在课程改革已然行进十多年的今天,作为课程实施者的教师对于课程的理解仍然是片面与狭隘的。文章从课程研究者与实施者的双重角度,解读了小学课程统整的现实需求、理性思考与
本文是《华龙网重庆新闻》中译韩翻译项目报告。随着中韩两国在政治、经济、文化等各个方面的交流日益频繁,重庆作为中国四大直辖市之一,与韩国的交往也越来越密切。特别是随
磁性纳米颗粒因其独特的物理化学性质在诸多领域具有广泛应用,如磁流体、催化、生物科技、核磁共振成像、靶向载药、信息存储等。其中,Fe304作为一种常见的磁性铁氧体材料,若
有些西方学者在毛泽东思想的研究中,以为毛泽东思想中存在着根深蒂固的民粹主义因素,毛泽东思想是马克思主义伪装下的民粹主义。本文概括出这个观点得以提出的四个主要依据,