论文部分内容阅读
在过去的几十年间,许多经典的模型在信息检索领域诞生,诸如布尔模型、向量空间模型以及概率模型等。1998年,Ponte和Croft首次将统计语言模型应用于信息检索,并且提出了查询似然语言模型,近十年来该模型得到了快速的发展。随之国内外许多学者都加入了这个领域的研究,在大量的研究实验基础上,研究者们又陆续的提出了隐马尔科夫模型,统计翻译模型,风险最小化模型等。但研究者所提出的大多数检索模型都仅使用了词在文档中的频率这一特征,而未考虑文档中词与词之间的位置关系。基于这点,Lv和Zhai提出了一种位置语言模型,该模型细微到对每个词项位置建立一个语言模型。随后在位置语言模型的基础上,余伟和王明文对其做出了改进,提出了一种结合语义的位置语言模型(SPLM),并成功应用于信息检索。该模型的检索模型部分直接应用了插值(Jelinek-Mercer)平滑,但并未在检索当中考虑查询词项的位置信息,依然存有缺陷。因此本文在他们的工作基础上进行了改进。近年来的研究表明应用查询词项匹配在文档中的位置信息可以提高查询结果的准确性。如何更好地刻画查询词在文档中的位置信息并建模,是研究提高检索效果的问题之一。本文在结合语义的位置语言模型(SPLM)的基础上进一步考虑了词的邻近信息,并给出了用狄利克雷先验分布来计算邻近度的平滑策略,提出了结合邻近度的位置语言检索模型。具体来说本文的主要工作和创新点如下:1)首先考虑对比了多种不同的核函数,并最终决定采用高斯核函数来度量原有模型中的位置关系,并给出了邻近度计算模型的与语言模型的融合思想。2)搜索结果排序是信息检索中的基本问题,基于概率统计学以及线性级算法复杂度相关理论,提出了一种结合邻近度的位置语言检索模型。本文根据邻近度与语言模型融合的思想,给出了邻近度信息与狄利克雷平滑的SPLM检索模型的结合方式,进一步系统的对比了结合语义的位置语言检索模型与结合邻近度的语义位置语言检索模型的性能差异,并区分对比了狄利克雷先验分布平滑与SPLM模型中JM平滑的效果。3)通过实验表明,本文提出的检索模型在检索性能方面要优于结合语义的位置语言模型。本文也进一步对模型中的参数进行了敏感度分析,并且对比了不同的邻近度策略,且对不同邻近度结合方式的模型进行了算法复杂度的分析。