论文部分内容阅读
在这个信息爆炸的时代,信息检索系统的出现无疑给人们在因特网上寻找自己感兴趣的内容提供了莫大的帮助。对于系统返回的大量文档来说,用户们最关注的就是这些文档的顺序。一个好的检索系统应该把最接近用户查询意愿的文档排在返回列表的最前面。
随着当前互联网上可得到的信息量快速增长,研究人员越来越意识到一个好的排序算法对检索系统的重要性。在过去的几十年里,各国学者提出了很多信息检索的技术,但是与日趋庞大的信息量相比,这些技术存在着一些共同的问题(如模型参数难以手工调整和过度拟合等现象),而且也很难把不同的模型结合起来形成一个更有效的新模型。
另一方面,机器学习领域的研究学者们已经发展出了一套成熟的理论用于解决前面提到的这些问题。近年来,一些学者开始利用机器学习技术来指导信息检索中的排序过程,并取得了比较大的突破。从而,“排序学习”作为信息检索领域的一个新分支迅速成为了当前热门的研究方向。目前多数流行的排序学习算法都是采用全监督的方式学习一个单一的排序模型来进行的,这种方法对于用户提交的多种多样的查询来说存在着一定的局限性。因为排序算法在训练的过程中有可能会在不同的查询之间采取折中的模型,从而导致排序准确率的下降。
在本文中我们提出了一种基于查询之间相似性信息的直推式排序学习方法来为每一个查询生成一个独立的排序模型。首先,本文利用一个查询的相应文档特征的标准差定义了一种全新的查询特征,并提出了一种与KendallsΥ距离类似的方法来度量两个查询之间的相似性;其次,本文采用这些方法从训练集中寻找与测试集上的查询相似的那些查询,并利用它们为训练集和测试集分别产生了多个额外特征。通过将这些特征添加到原来的训练集与测试集中得到新的数据集;最后,我们利用目前流行的多种全监督排序学习算法在新的数据集上进行训练与预测,并将实验所得的结果与原始的全监督排序学习算法结果进行了比较。由于这些新添加的特征能够更好地表达出相应的查询,我们认为这个新的直推式学习框架将有可能提高排序的准确率。
我们在LETOR数据集上采用Rank Boost与SVMmap算法对文中提出的直推式学习框架进行了实验,并给出了多个信息检索评价标准(MAP和NDCG)的比较结果和相应的分析。实验结果表明,本文提出的改进算法能够更加有效地提高文档排序的精度。