用于连接强度检索模型索引的重要连接选择研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jiaxing19871215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索技术不仅可以实现情报检索的绝大部分功能,而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的核心技术是将源文档中的所有的基本元素的出现信息记录到索引库中以及采用相关的检索模型对查询与文档集的匹配得分进行相关度排序,返回一个有序的文档子集;主要是在检索效率和检索效果两个方面进行研究。   对此,本文结合信息检索开源工具集平台Lemur,研究了基于倒排文件的全文索引技术,通过对索引压缩技术的学习研究,考虑采用性能较好的可变字节编码压缩算法对倒排列表进行编码,以及有效地组织倒排文索引结构中的字典和倒排列表,并研究考虑词语间连接信息的索引技术,进而提高连接依存模型的检索效率;并在信息检索的开源工具平台Lemur上实现考虑词语间连接信息查询的索引。   然后研究了考虑词语间重要连接信息的依存模型存在的三个关键问题。对此提出一种好的重要连接选择机制:首先,考虑一种连接信息的索引文件link Index来提高依存检索模型的检索效率;然后,假设连接频率的累计分布函数CDF与两个词语间的互信息MI存在某种正比关系,通过在TREC数据集中进行实验验证;最后,通过MI的阈值来筛选得到候选的连接信息,并用于依存模型中,采用检索效果最好的MI阈值来获取文档数据集中的重要连接。通过实验进行论证,所选重要连接用于连接依存检索模型中提高检索模型效果,并且降低其索引Link Index的复杂度。  
其他文献
信息技术高速发展的今天,人类生活越来越依赖计算机技术,由此背景下的计算机安全技术越发凸显其重要性。Rootkit是90年代后期成熟的后门技术,其中基于Linux内核的虚拟文件系
对地观测系统(Earth Observation System, EOS)是使用航天遥感器实现对地观测,它的建立有非常重要的意义,例如可以实现军事侦察,进行地球资源勘探,获取区域立体影像从而进行
云计算是下一代IT企业架构,但是云计算的安全问题阻碍了其大规模应用,其中一个主要的挑战是远程公开地对不可信的云存储服务器上的用户数据进行完整性检验。然而由于用户有限的
近年来,微电子技术、传感器技术、无线通信等技术的发展与进步,共同推动了具有多功能、低能耗的无线传感器网络的产生及发展。无线传感器网络是由大量廉价传感器组成的一种无基
问答系统是新一代智能搜索引擎,它允许用户以自然语言提问,并能够向用户返回准确的答案。所以,与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需
miRNA是近几年生物信息学领域的研究热点。它在人类疾病的产生、发展等过程中都起到非常关键的作用。虽然可以通过生物实验的方法挖掘出某些致病miRNA,但是这里面往往会存在两
背包问题不仅具有重要的理论研究价值,而且在实际问题中有着重要的应用,与企业效益密切相关。在经典的背包问题中,物品的价值是事先给定的,与放入的背包无关。但是对于一些实
随着计算机网络的发展,网络协议的重要性日渐突出。协议是通信各方能够正确互联的保证,是各个通信实体间需要遵守的一系列规则。然而,多数协议的文档都是通过自然语言进行书
目前主流的虚拟化技术厂商都实现了虚拟机监控器的内存页共享功能,虚拟机之间内容相同的多个内存页只占用一份实际的机器内存页,这一技术能够降低单个物理机的内存消耗。但是
近几年,由Facebook和Twitter所引领的社交类网站迅速发展,已渗入普通网民的日常生活。社交网络以“六度分离”理论为基础,使得人们能够在除现实世界外不断拓展自己的朋友圈子。