分布式全文索引技术的研究

被引量 : 0次 | 上传用户:yinyilin183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式全文检索技术是现代信息处理的一项重要技术,在搜索引擎、竞争情报、舆情监控等领域中具有广泛的应用价值。对高效分布式全文索引技术的研究和探索不仅有很高的理论价值,而且极具商业前景。分布式索引系统中的关键技术主要包括索引创建和更新,分布式索引数据分配,分布式索引的负载均衡,分布式索引查询等方面。因此本文采用现有的比较成熟的索引创建技术,而把索引数据的分配作为一个研究重点,在索引分配策略的基础上研究索引的更新以及查询,并实现了一个在舆情监控系统应用的分布式索引系统。索引系统的性能是影响搜索引擎查询效率的关键因素。传统的搜索引擎架构中的索引系统一般是运行在大规模高性能的集群上,这需要昂贵的硬件费用。如果能设计出一种能在由互联网连接的若干小规模集群上运行的分布式索引系统,将会大大的降低系统的硬件成本。当前分布式索引的索引策略主要有词表划分和文档划分两种,但二者都有相应的优缺点,单纯的选择一种构建分布式索引系统都不会具有很好的效果,结合两者的优点,并根据应用网络环境由互联网连接的若干集群的特点,提出了一种分层结构的分布式索引数据划分方法。在集群之间采用文档划分,集群内部采用词表划分,并添加针对于索引更新的更新索引服务器。通过实验验证该分层结构的分布式索引系统以较低的资源占用取得了较高的查询效率,并且也具有较高的负载均衡水平。为了使舆情监控达到更好的效果,在建立索引之前,对舆情监控涉及到的新闻、博客和论坛的网页做了内容提取,提取出舆情监控关注的信息,只对这些信息建立索引,提高了舆情检索的准确和性索引建立效率。
其他文献
以深圳华为科研中心幕墙工程为例,介绍了新型钢拉索点式幕墙的钢拉索安装、索力监测与玻璃安装施工方法,以及为保证工程安装质量所进行的施工前准备工作和施工过程中的材料、
结合工程实例,对SMW工法关键技术的施工工艺及其主要特点进行了阐述,并对施工质量保证措施进行了介绍,以推广SMW工法在深基坑支护工程中的应用。
课堂是师生双方交往、互动的舞台 ,是学生探究知识、获得发展的场所。加强课堂教学中师生互动的研究 ,探索课堂教学师生互动现状 ,反思现今课堂教学 ,分析影响教学互动的原因
提出了一个用于中西医关联发现的云平台—BioTCM Cloud。该平台是构建在大量的开放链接数据(Linked Data)的基础上,以及跨领域知识整合的需要。面对海量的链接数据,提出了基
从城市肌理演变出发,观察了柏林和上海在近十七年间的城市建设,指出在对待城市肌理上采取的是截然不同的政策和态度:柏林贯彻的是“批判的重构”和“谨慎的城市更新”,而上海
介绍了双孢蘑菇生长所需条件及其相应的大田栽培技术。
边疆文化治理是以政府为主导的多元治理主体,采取有效措施解决边疆文化发展中的各种问题,是推进边疆文化持续繁荣的过程。由于历史、地理及政策的原因,我国边疆文化治理面临
欲知大道,必先为史。陕西照金北梁红军小学学生因走近历史而为“这片红色的土地”骄傲和自豪,因了解历史而明白“今天的幸福生活来之不易”,更因深入历史而坚定感恩奋进、早日成
报纸
本文以汉传佛寺空间格局为主要研究对象,从"学修体系一建筑载体"互动关系这一新视角,以"教育目标一学修体系一组织方式及管理制度一建筑空间格局"这一逻辑演进的脉络为研究模