基于生成对抗网络的问答检索研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:JK0803_shijiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和大数据的迅速发展,互联网上可供学习的信息来源越来越丰富,人们能够通过搜索引擎快速便捷地获取自己想要的信息。而由于可供选择的数据量很大,搜索引擎需要有较强的算法支持以匹配到用户真正需要的信息。但是现有的搜索引擎仍然存在很多不足,主要分为以下两个方面:一是返回结果太多,导致用户很难快速准确地发现最符合需要的信息;二是搜索引擎的技术基础,即关键字匹配,主要关注语言的语法形式,而对语义的关注较少,同时由于用户表达个人需求的能力参差不齐,采用简单的查询词难以准确地表达信息需求,使得检索效果一般。除搜索引擎外,可以用问答检索系统来满足用户的信息需求。不同于传统的搜索引擎,问答检索系统不仅能用自然语言语句来提问,还可以根据模型返回的查询结果直接将最佳答案返回给用户,而不再仅是相关的网页。问答检索系统通过对问题和答案进行相关性匹配排序来找到最佳答案,因此,选择合适的训练数据是训练问答检索模型的第一步。基于此,本文语义匹配中首先要完成对输入文本的表示学习工作,进而计算问题与答案间的语义相似度。本文首先分析了问答检索问题的研究目的及意义,并对国内外在问答检索领域的研究现状进行详细阐述,包括信息检索、问答系统、深度语义匹配等方面的内容,为模型的展开奠定理论基础。然后介绍了本文在研究中所用到的技术和方法,主要是深度语义匹配和生成对抗网络(GAN,Generative adversarial network)的方法原理。随后提出QAGAN模型,采用基于GAN模型的方法对限定域的问题和答案进行语义匹配,其目的不仅是从候选答案集中找出正确答案呈现给用户,更在不断训练过程中提升了模型识别正确答案的能力。在模型的应用中,针对限定域问答检索任务,选择保险领域语料库,首先从包含正确问答对的训练集中采样正向问答对,对每一组正向问答对,从全部答案集中抽取出正确答案之外的n条干扰答案,分别对三项的原始句子输入进行表示学习得到对应的句子向量,并通过求余弦值的方法计算相似度得分并排序,生成模型产生近似于真实答案排序的答案对,判别模型需要区分真实答案对和生成答案对。最后,将算法识别出的结果与数据标签进行对比,以验证方法的有效性。本文的创新点主要体现在以下两方面:1.将深度语义匹配模型用于问答检索系统,更加注重语义信息。深度语义匹配模型在信息检索领域有一定程度的发展,而在问答系统这样的短文本任务中应用较少。通过对问题和答案候选集一一进行深度语义匹配,从答案候选集中选择出最佳回答。2.将生成对抗网络应用于自然语言处理领域(NLP,Natural language processing)的问答检索任务中。此前也有学者尝试过将GAN与NLP进行结合,但大多难以取得令人满意的效果。此次将GAN应用于问答系统中,结合GAN中的生成模型与对抗模型,利用博弈论方法来迭代地优化这两个模型。一方面,旨在从标记和未标记数据中挖掘有效信号的判别模型,为训练生成模型提供了指导,以适应在给定查询的文档上隐含的相关性分布。另一方面,生成模型通过最小化其判别目标,以对抗的方式生成对于判别模型来说难以分辨的问答对。
其他文献
16世纪哥白尼“日心说”拉开近代科学革命序幕,始于斯而不止于斯,如燎原之火,由天文学领域迅速蔓延开来,物理学化学等学科相继掀起革命热潮。人性解放的诉求与技术带来的强大生产力一拍即合,由之引发的产业革命一次次改变人类生活方式,进而影响到整个人类历史格局。经过近五个世纪诸多科学家之不懈探索,如今科学已近乎成为真理之代名词,技术成为力量之表征,其于人类文明之贡献人所有目共睹。然阴阳相随,利弊并存,技术作
近些年,由于我国对天然林商业性采伐限制愈加严格、木材资源供需缺口逐渐扩大,推广人工速生林逐渐成为木材行业的重要发展趋势。速生杨作为我国三大速生树种之一,既具备适应力强、种植范围广、生长周期短等优点,也存在木纤维含量较低、木节多、力学性能差等缺陷。为推广速生杨木材在绿色建筑中的应用,本文提出利用结构胶、钢板以及碳纤维布对速生杨木梁试件进行复合改性。为了得到试件的承载能力、变形能力及破坏状态等方面的变
目的:研究苯并[a]芘暴露对小鼠学习记忆、恐惧记忆等行为的影响,以及其对大脑海马齿状回区成年神经发生的影响,并进一步探索Wnt/β-catenin信号通路是否参与相关的改变的调控。方法:选取健康8周龄C57BL/6雄性小鼠198只,随机分为3组:染毒组、溶剂对照组和生理盐水对照组。各组每天分别腹腔注射0.04%苯并[a]芘溶液(2mg/kg)、等体积橄榄油(5mL/kg)和等体积生理盐水(5mL/
近年来,砗磲贝壳以其长寿命、高分辨率、环境信息记录完整、生长条纹清晰等优点,成为研究中低纬度珊瑚礁生态系统中环境变化的理想材料。本研究的砗磲贝壳采自基里巴斯西部的
重金属Cd在土壤中的过量积累,不仅对植物体造成巨大的损伤,还严重威胁着人类的身体健康。目前,植物修复技术是修复土壤重金属Cd污染的有效方式之一,杨树由于根系发达、生长迅
随着弹性结构的广泛应用,越来越多的学者致力于研究具有外部干扰的弹性梁系统的稳定性。本文以下述Euler-Bernoulli梁为研究对象,分别讨论了在两种不同动态边界条件下,具有外
随着互联网日新月异的发展,各种互联网应用给人们的衣食住行及各国的政治、经济、社会带来了巨大改变。在此环境的背后,海量的、各种类型的数据以惊人的速度产生,人们已经迈
随着人民的生活水平快速提升,旅游这一行为方式已然变成生活中不可或缺的放松途径,越来越多的人喜欢出境游,并不满足于国内游。同时伴随电商的飞速发展,越来越多的消费都在网
配对交易(Pairs Trading)量化投资策略是统计套利的一种,同时也属于一种市场中性投资策略,其核心思想就是在市场中寻找出两只同时满足在长期来看处于均衡状态,而在短期内会出
多属性决策作为管理科学与工程的重要分支被广泛应用在投资项目优选、供应商优劣排序、经济效益评估等社会经济管理领域。多属性群决策是指多个评价者选择某种决策方法,根据