半监督排序学习研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：hjjytsfsdf

【摘要】

：

信息检索中的排序(Ranking)问题是指给定某个查询和一候选文档集，检索引擎计算每个文档和该查询的相关性，并根据相关性将文档列表返回给用户。排序学习(Learning to rank)已成

【作者】

：

张新

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

信息检索半监督学习思想标记数据聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索中的排序(Ranking)问题是指给定某个查询和一候选文档集，检索引擎计算每个文档和该查询的相关性，并根据相关性将文档列表返回给用户。排序学习(Learning to rank)已成为信息检索中解决此类问题的主要方法。然而要发挥排序学习的优势需要克服标记数据不足等困难。博士论文工作探索在无标记或只有少量标记数据时，利用半监督学习思想来提高排序学习性能的新方法。　　半监督学习是一种利用大量的未标记数据和少量标记数据共同学习的机器学习方法。在信息检索中，传统的半监督学习通常是基于初始检索结果中排名位置靠前的文档和主题相关，位置靠后的文档和查询主题无关的假设。研究表明查询本身的特性以及查询相关文档分布的多样性是这种假设并不总是成立的原因。因此既要控制在半监督排序学习中查询的质量又要建立鲁棒性的模型是本文需要克服的难题之一。　　本文提出了一种半监督排序学习框架，该框架的主要思想是在无标记或只有少量标记数据时，利用半监督学习从未标记数据中选择置信度高的样本作为伪标记数据添加到原始的训练数据中，从而为排序学习提供足够的训练数据。　　针对传统排序学习建立的模型泛化，无法有效捕捉未知查询特有的特性的问题，我们提出了一种查询偏置组合排序学习方法。该方法同时利用查询通用特征和查询特有的特征建立排序学习模型，因此能够建立适合特定查询的学习模型。组合排序学习方法利用半监督学习建立的查询偏置模型能够捕捉查询特有特性，克服了传统排序学习泛化的局限性，在Tweets11标准测试语料上的实验表明相比传统的排序学习模型，新模型可以有效提高检索正确率。　　为了解决只有少量标记数据时排序学习性能较低的问题，我们提出了基于分类的查询过滤方法。在基于分类的查询过滤方法中，我们利用少量的标记数据建立了查询性能预测器，评估每个查询带来的性能增益，从而决定是否在半监督学习的迭代过程中包含此查询。基于分类的查询过滤方法验证了通过筛选高质量的查询来提高半监督排序学习性能的可行性，在LETOR4.0标准测试语料上的实验表明该方法可以显著提高排序学习算法的检索正确率。　　在集成应用方面，针对无任何标记数据时无法应用排序学习的问题，我们提出了一种新型的基于聚类的直推学习方法来筛选高质量的查询。在基于聚类的直推学习方法中，我们采用聚类算法对每个查询的初始检索结果聚类，通过计算簇聚合度来衡量每个查询的质量，然后筛选出高质量的查询并应用半监督学习算法迭代生成伪标记数据。在排序学习公共数据集LETOR4.0（MQ2007上1454条查询，MQ2008上564条查询）和TREC公开数据集Tweets11（13，401，964条tweets）上的大量实验表明，基于聚类的直推学习方法相比基准实验能显著提高排序学习的性能;同时该方法也揭示了在无训练数据时我们可以采用基于聚类的直推学习方法迭代生成伪标记数据来模拟人工标记数据的可能性，从而缓解了排序学习中训练数据不足的难题。

其他文献

网格环境下一种认证和授权模型的研究和实现

网格技术将分布的资源集合并有效的利用，它为用户提供了访问、使用和控制分布在不同域的异构资源的能力，同时也为网格安全带来新的问题。认证和授权机制是网格安全的基础，它们相

学位

网格安全

广域网骨干链路数据包捕获研究与系统实现

随着网络技术的不断发展,网络越来越多地承载各种关键业务,对广域网骨干链路进行流量测量能够有效地分析网络状况、掌握流量特性,由此有效地实施流量工程,改善网络服务质量.

学位

数据包捕获网络处理器广域网骨干链路

基因芯片设计中离散种子技术的研究

随着人类基因组计划的完成,如何对大量序列进行处理成为了目前最重要的研究领域之一.因此,具有高度并行性,自动性,高效率的基因芯片技术应运而生. 基因芯片是生物技术与计

学位

探针设计基因芯片设计离散种子散列法贝叶斯推断

三维搜索引擎系统研究

随着信息技术的飞速发展,机械CAD、计算机视觉、虚拟现实、游戏、分子生物学和电子商务等三维数字技术在各领域的广泛应用,三维模型数据正在成爆炸性的增长,三维模型数据的识

学位

三维模型形体识别网格3D搜索引擎测地距离形体分布数字化虚拟人

微博中的开放域事件抽取

随着互联网的快速发展,微博、微信等以短文本为主的网络平台已成为实时信息的重要来源。以微博为例,它是一种基于用户关系获取和传播信息的平台,用户可以随时随地发布信息,实

学位

事件抽取命名实体识别条件随机场文本分类LDA模型

基于深度学习的低质量人脸图像可鉴别信息重建技术研究

学位

智能家居中无线音视频监控系统的研究与实现

随着人民生活水平的提高和对生活质量的追求,智能家居逐渐走进人民生活并得到迅速发展。其中一个关键技术,音视频监控越来越受正视。而嵌入式技术和无线网络技术的日臻成熟,

学位

智能家居监控嵌入式WiFi音视频

USB主机和设备控制器IP核的设计与验证

USB于1994年由Compaq、Intel、Microsoft和NEC等多家公司推出,凭借其即插即用、廉价、可选择的多种速度模式以及广泛的软硬件支持等特点,日益成为通用的串行总线接口.同时,随

学位

System-on-Chip通用串行总线IP复用FPGA验证USB主机设备控制器

集成电路的功能验证技术研究

在芯片的设计流程中,一般采用多种验证手段来确保芯片的正确性,包括功能验证,时序验证,测试验证等.其中最耗时的当推是功能验证,它主要是芯片流片之前,通过对芯片的软件模型

学位

功能验证形式化验证无界模型检验前像计算集成电路

动态邮件地址本的研究与实现

随着网络通信技术的发展和网络应用的普及，人们已经不再满足于单一的通信服务，经常可以看到人们利用Email，即时消息，IP电话，视频等多种通讯工具的共同工作来达到便捷的通信活动，人

学位

会话初始

半监督排序学习研究

其他学术论文