全文检索中索引算法的优化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jeff2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,伴随着信息化产业的迅速发展,越来越多的企业内部信息以数字化方式来存储,如何从海量的信息中准确检索到所需信息,成为一个值得研究的问题。目前,绝大多数信息检索系统采用全文检索模型,其中索引技术是全文检索模型的核心组成部分,它的结构设计、存储方法以及动态更新算法直接影响着全文检索系统的性能。所以,对全文检索系统中的索引算法进行优化具有十分重要的意义。本文首先分析了全文检索模型的系统结构、工作流程,以及关键技术:文档存储、分词技术、检索模型、索引组织;研究了传统的倒排索引的工作原理与方法,包括倒排索引的索引创建、索引存储、索引更新、索引删除、索引查询。基于上述研究分析,设计了一种分词处理技术,该技术通过引入冗余度和权重,提高分词处理的准确性和效率;分析了一种基于B-树的倒排索引结构,该结构由主索引、段索引、删除索引和词典库四大部分组成;设计了一种索引合并更新方法,加快了索引更新速度;设计了一种新型索引项,该索引项由词信息和位置信息组成,将位置信息存储在独立的堆栈中,从而减少了索引存储空间;设计了追加填充更新方法,解决了B-树页面溢出的问题,同时达到了索引的时间效率和空间效率的平衡点;设计了增量编码进一步压缩了索引存储空间。最后对提出的优化算法进行了编程实现,通过与基于传统倒排索引设计的lucene进行测试对比,证明了优化的有效性、可行性。
其他文献
无线传感器网络(WSN)是由大量无线传感器节点构成的、自组织的网络系统。它的特点有大规模部署、低功耗、动态自组织等,近年来在各个领域都获得了广泛的应用。在无线传感器网
云迁移是指将应用程序从企业内部数据中心迁移到云环境的整个过程,该过程涉及到选择云服务,确定迁移方式,重构应用程序,配置云资源等一系列分析、设计、重建的活动。  云计
随着信息时代的发展,计算机﹑科技﹑手机﹑互联网﹑社交网络等关键名词已成为人们日常生活中接触度较广的几个信息时代相关的专有代名词。与此同时,这些信息时代的产物,它们所带来的
数字水印技术是网络环境下知识产权保护和认证的手段之一,是目前信息安全技术领域的一个重要研究方向,本文在对已有的基于小波变换的数字水印技术分析的基础上,利用轮廓变换不仅
随着微机电系统、片上系统、通信技术和低能耗嵌入式技术的快速发展,无线传感器网络(WSN)应运而生,已经成为计算机科学与技术的一个新兴领域。它有十分广阔的使用前景,目前已经应
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何
计算机网络的发展,使得信息的交流和资源的共享更加便捷。为了教师教学和学生学习的方便,校园网带宽逐年扩大,访问的速度也得到了很大的提高。但是,目前校园网带宽的有效利用率并
目前云计算相关研究领域普遍关注的两个问题是如何保证用户的服务等级协议(SLA)和提高数据中心的资源利用效率。虚拟化技术是云计算资源管理的关键技术,而虚拟机动态放置策略
词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现
随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要