论文部分内容阅读
分布式全文检索技术是现代信息处理的一项重要技术,在搜索引擎、竞争情报、舆情监控等领域中具有广泛的应用价值。对高效分布式全文索引技术的研究和探索不仅有很高的理论价值,而且极具商业前景。分布式索引系统中的关键技术主要包括索引创建和更新,分布式索引数据分配,分布式索引的负载均衡,分布式索引查询等方面。因此本文采用现有的比较成熟的索引创建技术,而把索引数据的分配作为一个研究重点,在索引分配策略的基础上研究索引的更新以及查询,并实现了一个在舆情监控系统应用的分布式索引系统。索引系统的性能是影响搜索引擎查询效率的关键因素。传统的搜索引擎架构中的索引系统一般是运行在大规模高性能的集群上,这需要昂贵的硬件费用。如果能设计出一种能在由互联网连接的若干小规模集群上运行的分布式索引系统,将会大大的降低系统的硬件成本。当前分布式索引的索引策略主要有词表划分和文档划分两种,但二者都有相应的优缺点,单纯的选择一种构建分布式索引系统都不会具有很好的效果,结合两者的优点,并根据应用网络环境由互联网连接的若干集群的特点,提出了一种分层结构的分布式索引数据划分方法。在集群之间采用文档划分,集群内部采用词表划分,并添加针对于索引更新的更新索引服务器。通过实验验证该分层结构的分布式索引系统以较低的资源占用取得了较高的查询效率,并且也具有较高的负载均衡水平。为了使舆情监控达到更好的效果,在建立索引之前,对舆情监控涉及到的新闻、博客和论坛的网页做了内容提取,提取出舆情监控关注的信息,只对这些信息建立索引,提高了舆情检索的准确和性索引建立效率。