基于机器学习的搜索排序算法的研究

来源 :南京邮电大学 | 被引量 : 2次 | 上传用户:ren_lian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机和互联网技术的迅猛发展,人类社会进入一个信息爆炸的年代,人们每天都要面对海量的信息,用户的需求也从获取信息变为高效的获取有效信息,在这种时代背景下,信息检索技术的不断优化也显得尤为重要。机器学习作为新兴技术已经广泛应用于生活的各个方面,将机器学习和信息检索技术结合是一种必然的趋势,二者结合产生的方法称为学习排序方法。传统的检索技术无法挖掘复杂信息情况下特征的关联性,而学习排序方法利用机器学习自主学习的特性,能够很好的表征复杂特征间的关联性。根据对文档的不同处理,学习排序算法主要可以分为三类:单文档方法、文档对方法、文档列表方法。本文旨在研究和改进后两类算法的代表算法,Rank Net算法和Lambda MART算法。损失函数一直是学习排序算法的关键,可以用来衡量模型预测值和真实值之间的不一致程度,其优劣直接影响算法的性能。论文的研究工作主要包括以下三个方面:(1)论文从整体研究了信息检索领域中搜索排序算法的发展历程和研究现状,对排序学习系统框架做了概要描述,其中对排序学习算法的分类和评价指标做了详细研究,为后面算法的研究改进做铺垫。(2)本文提出一种改进损失函数的Rank Net算法,即将对级损失函数(交叉熵)与点级损失函数(Huber)线性组合成新损失函数来衡量模型预测的损失。原Rank Net算法以文档对为训练样本,只考虑文档对之间的偏序关系,忽略了文档本身与查询的相关性,对应到损失函数上是只使用了交叉熵损失函数。为了解决这个问题,在交叉熵损失函数上加入Huber损失函数来衡量单个文档本身的预测失误,改进后的损失函数可以使模型的预测效果更好。接着,本文利用BP神经网络搭建仿真平台,使用梯度下降法进行训练,仿真结果表明改进后的Rank Net算法比原算法具有更高的正确率。(3)本文研究了Lambda MART算法的基本原理,首先详细介绍了该算法的两个组成部分:Lambda Rank算法中的梯度Lambda和MART算法。其次阐述了Lambda MART算法作为文档列表方法的优势在于,它以带评价指标的负梯度作为每次迭代拟合的对象。本文随后对Lambda MART算法进行仿真实验并与Lambda Rank算法进行了对比实验,实验的仿真结果表明,Lambda MART算法在不同数量的决策树下有不同效果,过多数量的决策树会导致过拟合现象,且算法关注的前K位越多,NDCG@K值越大,即排序效果越好。对比试验表明Lambda MART算法相较于Lambda Rank算法在NDCG@10(归一化折损累积增益)评价指标下具有更优良的排序效果。
其他文献
根据中华全国商业信息中心的统计,2005年4月全国重点大型零售企业共销售啤酒1800万公斤,同比下降2.9%。本月前十位品牌的市场综合占有率总和为70.1%.比上月回落2.9个百分点。青岛、
执政本领建设是党的建设新的伟大工程的重要一环,关乎中国共产党执政地位的稳固。党的十八大以来,中国特色社会主义进入了新时代,党的历史方位和社会主要矛盾都发生了重大变
意识形态是中国特色社会主义建设的理论基石。廉政教育是我国新时期意识形态建构的重要内容,因为思想是行动的指南,我国目前正在进行的经济转型、社会转型必然引起思想观念领
以人为本的管理就是人本管理.它强调把人作为管理的核心要素,在尊重、理解和满足人的基础上,通过充分发挥人的积极性和主动性来实现管理者的目的,从而达到管理者和被管理者效
智能汽车作为汽车工业的未来发展方向,是道路拥堵和交通事故等问题的有效解决方案。智能汽车环境感知系统,主要利用各类传感器准确获取车辆周边的环境信息,为智能汽车做出决
信息化条件下的人才培养离不开信息化的教学条件。当前,军校信息化教育的实际与军校人才培养的需求存在不相适应的状况,我们要聚焦新型军事人才培养,构建军校教育信息化体系
“感受大自然之美”是鲁人版《思想品德》八年级上册第三单元第六课第一框内容,属情感体验型内容。下面我从教材分析、教学方法、教学程序、板书设计四方面谈谈对这节课的教
提出了一套基于Roberts算子和最大方差阈值算法的GUI车牌图像识别系统。针对相机或高清视频流所采集的照片,本文结合图片的预处理,采用梯度检测法进行边缘检测,基于像素点的
在现代社会,婚姻不仅关涉个体情感、伦理道德等精神需求,也是社会物质生产的基本组成单位,它既是维系两个人、两个家庭的重要纽带,也关乎国家发展和社会稳定。因此,婚姻制度
校园暴力问题近些年以来频频发生,其中尤以中职学校校园暴力较为突出,所以以广州市某职业学校为例,以该校的学生为研究对象,主要针对个案的性格特征及其生活环境和经历进行详