论文部分内容阅读
全文检索技术不仅可以实现情报检索的绝大部分功能,而且还能直接根据数据资料的内容进行检索。当今以全文检索为核心技术的搜索引擎已成为网络时代的主流技术之一。全文检索的核心技术是将源文档中的所有的基本元素的出现信息记录到索引库中以及采用相关的检索模型对查询与文档集的匹配得分进行相关度排序,返回一个有序的文档子集;主要是在检索效率和检索效果两个方面进行研究。
对此,本文结合信息检索开源工具集平台Lemur,研究了基于倒排文件的全文索引技术,通过对索引压缩技术的学习研究,考虑采用性能较好的可变字节编码压缩算法对倒排列表进行编码,以及有效地组织倒排文索引结构中的字典和倒排列表,并研究考虑词语间连接信息的索引技术,进而提高连接依存模型的检索效率;并在信息检索的开源工具平台Lemur上实现考虑词语间连接信息查询的索引。
然后研究了考虑词语间重要连接信息的依存模型存在的三个关键问题。对此提出一种好的重要连接选择机制:首先,考虑一种连接信息的索引文件link Index来提高依存检索模型的检索效率;然后,假设连接频率的累计分布函数CDF与两个词语间的互信息MI存在某种正比关系,通过在TREC数据集中进行实验验证;最后,通过MI的阈值来筛选得到候选的连接信息,并用于依存模型中,采用检索效果最好的MI阈值来获取文档数据集中的重要连接。通过实验进行论证,所选重要连接用于连接依存检索模型中提高检索模型效果,并且降低其索引Link Index的复杂度。