信息检索中的相关性建模研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sese4546
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索作为人们获取信息的最重要的活动之一,已经成为人们日常生活不可或缺的一部分。信息检索系统根据用户提出的查询请求,从数据资源集合中找到与该查询相关的文档返回给用户,其中,最核心的一个问题就是判断文档与查询的相关性。从上个世纪五十年代开始,研究人员就对相关性的建模问题展开了研究,然而,由于相关性概念本身的复杂性,以及网络环境中查询与文档的多样性,相关性建模依然面临着巨大的挑战。一方面,相关性作为用户信息活动中认知行为的产物,其概念本身错综复杂,至今依然没有统一明确的定义。另一方面,现有的相关性建模方法依赖于启发式的规则或是人工定义的特征,忽略了用户因素在相关性判断中的关键作用,难以有效的捕捉查询与文档复杂的相关模式。  在此背景下,本文提出从用户对相关性的认知过程出发,借助深度学习技术强大的拟合能力来建模查询与文档的相关性。具体的,将查询与文档的相关性建模成人的感知到认知的三阶段的过程,分别是相关性信号感知、相关性匹配度量、以及相关性判断决策。基于此,本文围绕相关性建模的这三个过程展开研究。具体的,本文研究了相关性建模中三个关键性的挑战问题:1)相关性信号感知中面临的信号复杂性的问题;2)相关性匹配度量中面临的查询与文档对的语义鸿沟的问题;3)相关性判断决策中面临的查询多样性与文档异质性的问题。  首先,针对相关性信号复杂性的问题,在相关性信号感知过程中,提出了一个视觉感知模型。在该方法中,首次提出从网页快照中直接感知文档的相关性信号,突破了传统仅依赖文本和链接分析的感知方式。网页快照是网页经浏览器渲染后呈现给用户的二维图片,它不仅包含了网页全部的结构布局信息,同时还保留了查询词在网页中匹配的大小、分布、颜色等信息。通过模拟人在网页浏览中的视觉模式,提出了一个视觉感知模型,该模型是一个端到端的深度神经网络,可以自动学习网页的相关性特征。此外,针对该模型,还提出了一个高效的网页快照索引机制,从而能满足实际检索系统对于效率的需求。  然后,针对查询与文档对之间的语义鸿沟问题,在相关性匹配度量过程中,将查询和文档的相关性建模成两个文本片段的匹配问题,并对比分析了信息检索中的相关匹配与自然语言处理任务中的相似匹配的差异,提炼了相关匹配的三个核心要点:1)强调精确匹配的信号;2)区分不同查询词的重要程度;3)多样的匹配需求。基于相关匹配的特点,借助词向量在刻画单词语义关联中的优势,本文从两个利用深度学习的角度,提出了两个相关匹配的算法:首先,从无监督方式利用分布式表达增强相关匹配度量的角度,设计了一个基于词向量的非线性词运输模型;其次,从有监督方式直接利用神经网络端到端建模相关性的角度,设计了一个深度相关性匹配模型。最后,还分析了两个匹配模型在相关性建模中各自存在的优势和不足。实验结果验证了深度学习技术在查询与文档的相关性匹配度量中的性能,能有效的克服查询与文档之间面临的语义鸿沟的问题。  最后,针对查询类型多样性以及文档结构异质性带来相关模式多样的问题,分析了单一的相关性匹配模型在建模多样的相关模式中的不足,并提出基于决策的相关性判断方法,分别从查询和文档的角度对相关性决策进行了研究。首先,针对文档结构异质性带来的相关模式多样的问题,提出了一个层次化的神经匹配决策模型,根据文档自身相关模式自动选择最佳的相关匹配信号进行相关性判断;其次,针对查询需求多变带来的查询类型多样的问题,从查询内部结构信息来理解不同查询的相关性需求,分析了查询内部词项之间依赖程度的差异对相关性建模的影响,并提出了一个基于查询词依赖关系的相关性决策方法。通过实验验证了决策模型在查询与文档对的相关性判断中的能力,能有效的建模不同查询和文档的多样相关模式,显著的提升检索的性能。  总的来说,针对信息检索中查询与文档的相关性建模的问题,本文从用户认知行为的角度提出了三阶段的相关性建模过程,并从感知、度量、以及决策三个层面研究了如何全面的刻画查询与文档的相关性,并相应的提出了多个新颖的深度相关性建模方法,在公开的评测数据集上对各个模型的性能进行了验证。
其他文献
本文按照柔性制造系统(FMS)的实际情况和具体功能要求,首先介绍了FMS的相关概念和其工作流程,在此基础上抽象了FMS管理控制系统本体对象分类树。然后基于设计模式设计了FMS管理与控制系统的软件结构。根据软件设计模式对管理与控制系统Agent的各模块进行规划,将FMS管理与控制系统的各部分功能设计成相对独立的模块,增强了系统的可维护性。最后使用面向模式的分析设计方法(POAD)将各个模块通过接口聚
随着网络信息技术的飞速发展,我国的信息化建设也在全面进行,同时信息化建设的过程中也面临着严峻的考验,其中,在电子政务建设和发展中的信息安全问题就是一个典型的代表。而数字
地理信息系统(GIS)是以采集、存储、管理、分析、描述和应用地球表面与空间和地理分布有关数据的计算机系统。GIS广泛地应用于环境、自然资源、日常生活、及政府管理和军事等
近年来,随着以互联网技术为代表的信息技术的迅猛发展,各种文字、图像、声音和视频等媒体的获取、保存与使用方式发生了很大的变化。这一方面给人们带来了极大的方便,但另一方面
三维虚拟人建模是计算机视觉、计算机图形学以及虚拟现实等研究领域中一个备受关注的前沿方向,在计算机动画方面具有广阔的应用前景,不仅具有重要的研究意义,而且具有很好的应用
特征选择是机器学习领域中一个重要的研究方向。尤其是近年来,随着很多以高维小样本为特征的实际问题的涌现,如:自然语言处理、生物信息、经济与金融、网络与电信和医学等数据分
学位
资源描述框架(Resource Description Framework, RDF)及其模式(RDF Schema, RDFS)是语义Web的基础。目前,RDF和RDF Schema文档被广泛用于描述语义Web上的信息,如何对RDF/RDFS
Web服务技术是一种新兴的互联网应用程序开发技术。利用各种不同的Web服务,人们可以自由地定制所需要的应用程序。论文对如何利用.NET技术和Web服务技术整合Internet上现有的
随着现代化技术的发展,用于煤矿生产、安全的自动监测监控设备越来越多,而这些自动化设备是集通信、控制、计算机为一体的综合性很强的技术为基础。由于控制对象不同,多种控
随着VoIP网络技术的快速发展,承载视频、音频等多媒体业务的VoIP网络终端设备得到了大规模的部署,然而在对VoIP网络中各种类型的终端设备及设备中运行的业务进行管理时面临着