基于查询相似性的直推式排序学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:A136C316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息爆炸的时代,信息检索系统的出现无疑给人们在因特网上寻找自己感兴趣的内容提供了莫大的帮助。对于系统返回的大量文档来说,用户们最关注的就是这些文档的顺序。一个好的检索系统应该把最接近用户查询意愿的文档排在返回列表的最前面。   随着当前互联网上可得到的信息量快速增长,研究人员越来越意识到一个好的排序算法对检索系统的重要性。在过去的几十年里,各国学者提出了很多信息检索的技术,但是与日趋庞大的信息量相比,这些技术存在着一些共同的问题(如模型参数难以手工调整和过度拟合等现象),而且也很难把不同的模型结合起来形成一个更有效的新模型。   另一方面,机器学习领域的研究学者们已经发展出了一套成熟的理论用于解决前面提到的这些问题。近年来,一些学者开始利用机器学习技术来指导信息检索中的排序过程,并取得了比较大的突破。从而,“排序学习”作为信息检索领域的一个新分支迅速成为了当前热门的研究方向。目前多数流行的排序学习算法都是采用全监督的方式学习一个单一的排序模型来进行的,这种方法对于用户提交的多种多样的查询来说存在着一定的局限性。因为排序算法在训练的过程中有可能会在不同的查询之间采取折中的模型,从而导致排序准确率的下降。   在本文中我们提出了一种基于查询之间相似性信息的直推式排序学习方法来为每一个查询生成一个独立的排序模型。首先,本文利用一个查询的相应文档特征的标准差定义了一种全新的查询特征,并提出了一种与KendallsΥ距离类似的方法来度量两个查询之间的相似性;其次,本文采用这些方法从训练集中寻找与测试集上的查询相似的那些查询,并利用它们为训练集和测试集分别产生了多个额外特征。通过将这些特征添加到原来的训练集与测试集中得到新的数据集;最后,我们利用目前流行的多种全监督排序学习算法在新的数据集上进行训练与预测,并将实验所得的结果与原始的全监督排序学习算法结果进行了比较。由于这些新添加的特征能够更好地表达出相应的查询,我们认为这个新的直推式学习框架将有可能提高排序的准确率。   我们在LETOR数据集上采用Rank Boost与SVMmap算法对文中提出的直推式学习框架进行了实验,并给出了多个信息检索评价标准(MAP和NDCG)的比较结果和相应的分析。实验结果表明,本文提出的改进算法能够更加有效地提高文档排序的精度。
其他文献
随着数字电视的推广,基于交互式数字电视应用的开发越来越受到开发商的重视。数字电视中间件的发展使得交互式数字电视应用开发的技术已经不再成为应用开发的瓶颈,从而使得交互
一直以来自然灾害都是人类所要面对的巨大挑战,比如近些年来地震灾害在我国造成的不可估量的损失。国家大力提倡防震减灾、加强自然灾害预防性公共事务建设、提高公众的防灾
数据是企业的生命线,对于高度依赖信息的企业,各种灾难都有可能导致企业信息系统的瘫痪。如何尽量降低灾难给企业带来的负面影响并保证业务的连续性运营是需要高度重视的问题
随着互联网技术和多媒体技术的高速发展,数字信息的传输变得越来越方便。与此同时,由于数字信息很容易取得并传播,使得网络上充斥着未授权而被篡改或复制的信息。因此,为了遏
随着全社会的信息化进程的不断加速,当代学校教育也不能不受到这种“信息爆炸”的影响,教学资源再也不像先前那样单调和受制于教师个体知识视野的局限,呈现出海量增长和形态
随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要的任务。时间表达式在自然语言处
随着网络的快速发展和计算机的普及,国家各级政府加快了对电子政务的建设步伐。网上审批作为电子政务的一部分,是政府对外办公的一个重要窗口。按照方便公众的原则实现政府各
作为软件复用的一种有效手段,软件构件技术成功地将系统开发的重点从程序设计转移到对已有构件的选取、组装和部署。在构件模型的支持下,通过复用已有的构件,软件开发者可以
我国是地震多发国家。地震活动频度高、强度大、分布范围广、震源浅,地震灾害十分严重。由于引发地震的因素很多且各种因素之间具有极不确定的非线性关系。本文通过时间震级
在组合优化问题中,车辆路径问题(Vehicle Routing Problem)属于比较典型的NP-Hard问题。一般情况下组合问题可以模式化为排序问题与分类问题,然而VRP则同时具备排序与分类这两