论文部分内容阅读
随着社会信息化程度的不断提高,传统的基于单机系统的集中式信息检索技术已无法满足以大规模数据集为基础的并发多用户并行信息检索的需求。利用高速网络环境,搭建一个分布式搜索引擎集群系统,进行分布式并行信息检索,已成为搜索引擎新的发展趋势。信息集合的增大使得系统维护开销和检索响应时间越来越大。为了适应现代检索环境的越来越高的要求,检索体系设计和算法优化仍然是一个信息检索效率优化的重要研究方向。本文对信息检索系统中涉及的两个重大领域:索引和检索,分别提出了两种优化算法,并在此基础上衍生出了满足并行和分布式需求的几个不同技术。在索引方面,针对单一的RAM索引和FSD索引存在的缺点,采用RAM-FSD协同索引技术,并在此基础上衍生出了RAM-FSD协同并行索引和RAM-FSD协同分布式并行索引技术。在检索方面,针对现有线程池的不足,提出了一种新的线程池实现方式。在此基础上,提出了线程池优化检索技术,并衍生出了并行检索线程池优化和分布式并行检索线程池优化技术。在分布式搜索引擎集群设计中,本文针对一般分布式搜索引擎系统存在的问题,并吸取了GFS的优点,提出了一种安全、高效、容易扩充、资源共享、成本较低的分布式集群系统。