用于连接强度检索模型索引的重要连接选择研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：jiaxing19871215

【摘要】

：

全文检索技术不仅可以实现情报检索的绝大部分功能，而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的

【作者】

：

邬勇

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2012年期

【关键词】

：

全文检索倒排索引连接索引重要连接依存模型文档集匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

全文检索技术不仅可以实现情报检索的绝大部分功能，而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的核心技术是将源文档中的所有的基本元素的出现信息记录到索引库中以及采用相关的检索模型对查询与文档集的匹配得分进行相关度排序，返回一个有序的文档子集;主要是在检索效率和检索效果两个方面进行研究。　　对此，本文结合信息检索开源工具集平台Lemur，研究了基于倒排文件的全文索引技术，通过对索引压缩技术的学习研究，考虑采用性能较好的可变字节编码压缩算法对倒排列表进行编码，以及有效地组织倒排文索引结构中的字典和倒排列表，并研究考虑词语间连接信息的索引技术，进而提高连接依存模型的检索效率;并在信息检索的开源工具平台Lemur上实现考虑词语间连接信息查询的索引。　　然后研究了考虑词语间重要连接信息的依存模型存在的三个关键问题。对此提出一种好的重要连接选择机制:首先，考虑一种连接信息的索引文件link Index来提高依存检索模型的检索效率;然后，假设连接频率的累计分布函数CDF与两个词语间的互信息MI存在某种正比关系，通过在TREC数据集中进行实验验证;最后，通过MI的阈值来筛选得到候选的连接信息，并用于依存模型中，采用检索效果最好的MI阈值来获取文档数据集中的重要连接。通过实验进行论证，所选重要连接用于连接依存检索模型中提高检索模型效果，并且降低其索引Link Index的复杂度。　　

其他文献

Linux下VFS层ROOTKIT技术研究

信息技术高速发展的今天,人类生活越来越依赖计算机技术,由此背景下的计算机安全技术越发凸显其重要性。Rootkit是90年代后期成熟的后门技术,其中基于Linux内核的虚拟文件系

学位

Linux内核Adore-ng攻击Rootkit技术VFS层清除方案模块地址匹配检测技术

图像质量对立体定位精度影响的若干问题的研究

对地观测系统(Earth Observation System, EOS)是使用航天遥感器实现对地观测,它的建立有非常重要的意义,例如可以实现军事侦察,进行地球资源勘探,获取区域立体影像从而进行

学位

图像质量调制传递函数(MTF)立体定位信噪比高程函数

云存储数据完整性检验方法研究

云计算是下一代IT企业架构，但是云计算的安全问题阻碍了其大规模应用，其中一个主要的挑战是远程公开地对不可信的云存储服务器上的用户数据进行完整性检验。然而由于用户有限的

学位

云计算系统数据存储完整性检验管理程序

基于能量感知的WSNs路由算法研究

近年来，微电子技术、传感器技术、无线通信等技术的发展与进步，共同推动了具有多功能、低能耗的无线传感器网络的产生及发展。无线传感器网络是由大量廉价传感器组成的一种无基

学位

无线传感器网络能量感知节点分类功率控制路由算法

维基百科在IR4QA系统中的应用研究

问答系统是新一代智能搜索引擎，它允许用户以自然语言提问，并能够向用户返回准确的答案。所以，与传统的搜索引擎相比，问答系统能更好的满足用户的查询要求，更准确地检索出用户所需

学位

问答系统IR4QA查询扩展维基百科问题理解

基于聚类分析的microRNA与疾病关联关系分析

miRNA是近几年生物信息学领域的研究热点。它在人类疾病的产生、发展等过程中都起到非常关键的作用。虽然可以通过生物实验的方法挖掘出某些致病miRNA，但是这里面往往会存在两

学位

microRNA复杂生物网络疾病网络聚类

价值可变的0-1多背包问题模型及其优化算法研究

背包问题不仅具有重要的理论研究价值,而且在实际问题中有着重要的应用,与企业效益密切相关。在经典的背包问题中,物品的价值是事先给定的,与放入的背包无关。但是对于一些实

学位

多背包问题依赖背包的价值动态规划贪婪算法最大最小蚁群系统

基于UML和工作流Petri网的LDP协议一致性测试

随着计算机网络的发展,网络协议的重要性日渐突出。协议是通信各方能够正确互联的保证,是各个通信实体间需要遵守的一系列规则。然而,多数协议的文档都是通过自然语言进行书

学位

LDP协议工作流工作流Petri网XML解析器一致性测试

云环境下基于内存共享的服务器整合算法研究

目前主流的虚拟化技术厂商都实现了虚拟机监控器的内存页共享功能,虚拟机之间内容相同的多个内存页只占用一份实际的机器内存页,这一技术能够降低单个物理机的内存消耗。但是

学位

云计算虚拟化内存共享服务器整合

微博网络的复杂性分析

近几年，由Facebook和Twitter所引领的社交类网站迅速发展，已渗入普通网民的日常生活。社交网络以“六度分离”理论为基础，使得人们能够在除现实世界外不断拓展自己的朋友圈子。

学位

微博社交网络主题爬虫人类动力学

用于连接强度检索模型索引的重要连接选择研究

其他学术论文