论文部分内容阅读
信息检索作为人们获取信息的最重要的活动之一,已经成为人们日常生活不可或缺的一部分。信息检索系统根据用户提出的查询请求,从数据资源集合中找到与该查询相关的文档返回给用户,其中,最核心的一个问题就是判断文档与查询的相关性。从上个世纪五十年代开始,研究人员就对相关性的建模问题展开了研究,然而,由于相关性概念本身的复杂性,以及网络环境中查询与文档的多样性,相关性建模依然面临着巨大的挑战。一方面,相关性作为用户信息活动中认知行为的产物,其概念本身错综复杂,至今依然没有统一明确的定义。另一方面,现有的相关性建模方法依赖于启发式的规则或是人工定义的特征,忽略了用户因素在相关性判断中的关键作用,难以有效的捕捉查询与文档复杂的相关模式。 在此背景下,本文提出从用户对相关性的认知过程出发,借助深度学习技术强大的拟合能力来建模查询与文档的相关性。具体的,将查询与文档的相关性建模成人的感知到认知的三阶段的过程,分别是相关性信号感知、相关性匹配度量、以及相关性判断决策。基于此,本文围绕相关性建模的这三个过程展开研究。具体的,本文研究了相关性建模中三个关键性的挑战问题:1)相关性信号感知中面临的信号复杂性的问题;2)相关性匹配度量中面临的查询与文档对的语义鸿沟的问题;3)相关性判断决策中面临的查询多样性与文档异质性的问题。 首先,针对相关性信号复杂性的问题,在相关性信号感知过程中,提出了一个视觉感知模型。在该方法中,首次提出从网页快照中直接感知文档的相关性信号,突破了传统仅依赖文本和链接分析的感知方式。网页快照是网页经浏览器渲染后呈现给用户的二维图片,它不仅包含了网页全部的结构布局信息,同时还保留了查询词在网页中匹配的大小、分布、颜色等信息。通过模拟人在网页浏览中的视觉模式,提出了一个视觉感知模型,该模型是一个端到端的深度神经网络,可以自动学习网页的相关性特征。此外,针对该模型,还提出了一个高效的网页快照索引机制,从而能满足实际检索系统对于效率的需求。 然后,针对查询与文档对之间的语义鸿沟问题,在相关性匹配度量过程中,将查询和文档的相关性建模成两个文本片段的匹配问题,并对比分析了信息检索中的相关匹配与自然语言处理任务中的相似匹配的差异,提炼了相关匹配的三个核心要点:1)强调精确匹配的信号;2)区分不同查询词的重要程度;3)多样的匹配需求。基于相关匹配的特点,借助词向量在刻画单词语义关联中的优势,本文从两个利用深度学习的角度,提出了两个相关匹配的算法:首先,从无监督方式利用分布式表达增强相关匹配度量的角度,设计了一个基于词向量的非线性词运输模型;其次,从有监督方式直接利用神经网络端到端建模相关性的角度,设计了一个深度相关性匹配模型。最后,还分析了两个匹配模型在相关性建模中各自存在的优势和不足。实验结果验证了深度学习技术在查询与文档的相关性匹配度量中的性能,能有效的克服查询与文档之间面临的语义鸿沟的问题。 最后,针对查询类型多样性以及文档结构异质性带来相关模式多样的问题,分析了单一的相关性匹配模型在建模多样的相关模式中的不足,并提出基于决策的相关性判断方法,分别从查询和文档的角度对相关性决策进行了研究。首先,针对文档结构异质性带来的相关模式多样的问题,提出了一个层次化的神经匹配决策模型,根据文档自身相关模式自动选择最佳的相关匹配信号进行相关性判断;其次,针对查询需求多变带来的查询类型多样的问题,从查询内部结构信息来理解不同查询的相关性需求,分析了查询内部词项之间依赖程度的差异对相关性建模的影响,并提出了一个基于查询词依赖关系的相关性决策方法。通过实验验证了决策模型在查询与文档对的相关性判断中的能力,能有效的建模不同查询和文档的多样相关模式,显著的提升检索的性能。 总的来说,针对信息检索中查询与文档的相关性建模的问题,本文从用户认知行为的角度提出了三阶段的相关性建模过程,并从感知、度量、以及决策三个层面研究了如何全面的刻画查询与文档的相关性,并相应的提出了多个新颖的深度相关性建模方法,在公开的评测数据集上对各个模型的性能进行了验证。