论文部分内容阅读
随着网络的普及和大数据的迅速发展,互联网上可供学习的信息来源越来越丰富,人们能够通过搜索引擎快速便捷地获取自己想要的信息。而由于可供选择的数据量很大,搜索引擎需要有较强的算法支持以匹配到用户真正需要的信息。但是现有的搜索引擎仍然存在很多不足,主要分为以下两个方面:一是返回结果太多,导致用户很难快速准确地发现最符合需要的信息;二是搜索引擎的技术基础,即关键字匹配,主要关注语言的语法形式,而对语义的关注较少,同时由于用户表达个人需求的能力参差不齐,采用简单的查询词难以准确地表达信息需求,使得检索效果一般。除搜索引擎外,可以用问答检索系统来满足用户的信息需求。不同于传统的搜索引擎,问答检索系统不仅能用自然语言语句来提问,还可以根据模型返回的查询结果直接将最佳答案返回给用户,而不再仅是相关的网页。问答检索系统通过对问题和答案进行相关性匹配排序来找到最佳答案,因此,选择合适的训练数据是训练问答检索模型的第一步。基于此,本文语义匹配中首先要完成对输入文本的表示学习工作,进而计算问题与答案间的语义相似度。本文首先分析了问答检索问题的研究目的及意义,并对国内外在问答检索领域的研究现状进行详细阐述,包括信息检索、问答系统、深度语义匹配等方面的内容,为模型的展开奠定理论基础。然后介绍了本文在研究中所用到的技术和方法,主要是深度语义匹配和生成对抗网络(GAN,Generative adversarial network)的方法原理。随后提出QAGAN模型,采用基于GAN模型的方法对限定域的问题和答案进行语义匹配,其目的不仅是从候选答案集中找出正确答案呈现给用户,更在不断训练过程中提升了模型识别正确答案的能力。在模型的应用中,针对限定域问答检索任务,选择保险领域语料库,首先从包含正确问答对的训练集中采样正向问答对,对每一组正向问答对,从全部答案集中抽取出正确答案之外的n条干扰答案,分别对三项的原始句子输入进行表示学习得到对应的句子向量,并通过求余弦值的方法计算相似度得分并排序,生成模型产生近似于真实答案排序的答案对,判别模型需要区分真实答案对和生成答案对。最后,将算法识别出的结果与数据标签进行对比,以验证方法的有效性。本文的创新点主要体现在以下两方面:1.将深度语义匹配模型用于问答检索系统,更加注重语义信息。深度语义匹配模型在信息检索领域有一定程度的发展,而在问答系统这样的短文本任务中应用较少。通过对问题和答案候选集一一进行深度语义匹配,从答案候选集中选择出最佳回答。2.将生成对抗网络应用于自然语言处理领域(NLP,Natural language processing)的问答检索任务中。此前也有学者尝试过将GAN与NLP进行结合,但大多难以取得令人满意的效果。此次将GAN应用于问答系统中,结合GAN中的生成模型与对抗模型,利用博弈论方法来迭代地优化这两个模型。一方面,旨在从标记和未标记数据中挖掘有效信号的判别模型,为训练生成模型提供了指导,以适应在给定查询的文档上隐含的相关性分布。另一方面,生成模型通过最小化其判别目标,以对抗的方式生成对于判别模型来说难以分辨的问答对。