【摘 要】
:
文本相似性判别是机器翻译、自动问答等自然语言处理任务的基础技术之一。目前文本相似性判别方法在以下方面还存在需要解决的问题:句意重点和词语语义等在自然语言语义表达中起重要作用的信息未能很好地融入到相似性判别中、文本之间的交互特征没有得到充分利用。这些问题导致模型对文本蕴含的真实语义的理解有限,相似性判别的结果往往无法满足实际应用的需求。针对上述问题,本文以孪生网络模型为基础,融入交互匹配的思想,提出
论文部分内容阅读
文本相似性判别是机器翻译、自动问答等自然语言处理任务的基础技术之一。目前文本相似性判别方法在以下方面还存在需要解决的问题:句意重点和词语语义等在自然语言语义表达中起重要作用的信息未能很好地融入到相似性判别中、文本之间的交互特征没有得到充分利用。这些问题导致模型对文本蕴含的真实语义的理解有限,相似性判别的结果往往无法满足实际应用的需求。针对上述问题,本文以孪生网络模型为基础,融入交互匹配的思想,提出了一种结合自然语言语义表达特点的多重交互匹配方法,以实现语义层面的文本相似性判别。本文的工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持。论文的主要工作如下:(1)针对现有文本语义相似性判别模型,忽略自然语言语义表达特点的问题,提出了一种基于句意词识别和词语语义交互的直接匹配方法。该方法借助于词性标注工具和本体知识库How Net,分别完成了句意重点信息和词语语义信息的提取,而且在为模型引入词语语义信息的同时,还实现了词语级别早期交互特征的提取。实验结果显示,基于该方法搭建的模型,其判别文本对相似性的准确率比基础模型提高了4.29%。(2)针对交互特征提取不足的问题,除前述方法已经实现了词语早期交互之外,本文还提出了一种基于孪生Bi LSTM的间接交互匹配注意力方法。它面向神经网络模型输出的上下文特征向量,进一步实现了文本对交互特征信息的提取。在该方法中,本文借鉴交互匹配的思想,设计了差异注意力机制,将上下文特征向量间的差异,以注意力的形式引入到句子向量的表达过程中。此种方式实现了局部差异上升至全局差异,得到的文本向量表示,会更加有利于相似性判别任务的进行。实验结果显示,引入该方法后的模型,与基础模型相比,在相似性判别任务上的准确率提高了1.55%。将上述工作与基础模型相结合,最终搭建了多重交互匹配模型MIM-SEC。为验证该模型的有效性,本文分别进行了对照实验和对比实验。对照实验证明了,该模型主要结构的存在具备有效性和合理性,其在数据集上的准确率比基础模型提高了4.81%。同时对比实验显示,MIM-SEC在数据集上的表现,优于常见的相似性判别模型。因此可以得出结论,本文提出的结合自然语言语义表达特点的多重交互匹配方法,是一种有效的基于神经网络的文本语义相似性判别方法。
其他文献
目的探讨双侧STN-DBS电极植入术并发症产生的原因、防治及临床疗效分析方法回顾性研究2009年6月-2018年8月厦门大学附属第一医院神经外科治的42例帕金森病患者接受双侧STN-DBS手术治疗,发生手术并发症、针对并发症相应的处理方法及临床疗效分析。其中男性患者25(59,5%)人,女性患者17(40.5%)人,年龄40-74岁,H&Y分级为2-4级。结果42例患者中发生与手术操作、靶
叶绿体作为半自主性细胞器,其质体基因的表达依赖两种RNA聚合酶,即PEP和NEP。其中NEP主要负责叶绿体发育早期质体管家基因的准确转录,包括PEP核心亚基和参与基本质体功能的基因,而PEP转录产生完全活性叶绿体所必需的介导光合作用的蛋白。PEP的对依赖PEP的质体基因的正常转录需要一系列具有转录激活活性的蛋白参与调控,这些蛋白被称为TAC复合物。当这些蛋白出现功能缺失时,PEP无法正常转录质体基
小白菜是我国一种食用人口众多,种植范围广泛的蔬菜,但其易受到虫害的影响,因此喷洒农药已经成为了保产增产的有效措施。若使用方法不当就会导致小白菜农药残留超标,对人体造成危害,因此亟需快速的农药残留检测方法。传统的检测方法费时费力,本文基于高光谱技术,对小白菜表面残留农药种类识别和残留农药浓度检测方法进行研究,主要研究内容如下:(1)本文历时25天完成了小白菜样本种植、农药喷洒和光谱数据采集流程,获得
本论文通过3,4,9,10-苝四羧酸二酐与胺的亚胺化反应合成了一系列结构新颖的偶氮苯功能化的苝二酰亚胺衍生物(PBI),通过核磁共振氢谱(1HNMR),基质辅助激光解吸电离飞行时间质
准噶尔盆地莫西庄油田主力储层为三工河组二段,其油藏含油饱和度普遍小于40%,为低含油饱和度油藏。本论文首先在研究构造特征、地层特征、沉积特征的基础上,系统分析了低含油
垂直腔面发射激光器(Vertical Cavity Surface Emitting Lasers,VCSELs)自1978年问世以来,经历了快速的发展。它具有许多传统边发射激光器难以比肩的优点,例如:体积小、阈值电流低、转换效率高、纵模单一性好、具有圆形的输出光斑、对芯片可进行在片测试,并且容易集成为大面积阵列等。基于这些优点,VCSEL在最近几年里快速占领了半导体激光器市场,在光通信、传感、存
叶绿体是光合作用过程中最重要的细胞器,它虽有自己的基因组,但需要核蛋白的导入为其发育提供功能和物质基础。本文研究对象是一个水稻叶色缺失突变体。突变体在叶片发育3叶期前表现出白化表型,光合色素含量降低,叶绿体结构异常,发育受阻。我们用图位克隆的方法分离到目的基因OsSIG2A,初步探究了其功能,主要研究结果如下:(1)突变体二叶期前叶色表型白化,色素含量降低,叶绿体结构不完整,至三叶后期,叶片表型转
随着各地城市化建设加快,高层建筑逐渐增多,建筑易产生不均匀沉降。如果结构局部与整体沉降差值超过界限,就不能满足规范的要求。桩筏基础的基础形式在调节结构局部与整体沉
美斯乐位于泰国北部清莱府,是国民党93师残军第五军段希文的总指挥部所在地,所以美斯乐是一个华裔聚居的地方。在泰国有华人村的地方,几乎都会有一所中文学校,美斯乐也是一样。这里很早以前就建立了中文学校,所以美斯乐人很早就有机会学习汉语了。当地的人民也非常重视汉语,人们白天可以在泰文学校学习汉语,晚上就到中文学校学习汉语。以前Santikeereewitthayakhom School没有开设汉语教学课
粗糙脉孢菌是研究微生物遗传学和分子生物学的模式真菌,是唯一的一个拥有基因组序列、功能基因组工具和全基因组基因敲除突变体库的丝状真菌。它是一种经典的模式生物,是实验