基于深度学习的文本匹配方法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:promethean65
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配是指从语义或意图层面衡量两个文本的相似程度。文本匹配任务属于自然语言处理的基础性研究,其效果对文本蕴涵、自动问答、信息检索等诸多下游任务具有重要影响。传统的文本匹配方法通常依赖于文本的字面特征以及人工定义的规则衡量文本是否匹配,忽视了文本间的深层次语义匹配特征。与传统文本匹配方法相比,深度学习方法能够有效捕获文本的深层次语义特征,具有良好的模型泛化能力,在文本匹配任务上具有出色的表现。文本语义特征表示是文本匹配任务的一项核心工作,本文着眼于不同文本粒度对语义特征表示的影响,通过整合不同粒度的语义特征来优化文本语义特征表示,从而改善文本匹配效果。本文的贡献主要体现在以下三个方面:
  (1)单一的序列编码模型难以全面地捕获文本语义特征信息,容易出现语义特征缺失现象,进而影响文本匹配效果。为了解决这一问题,本文提出了一种基于单语义特征融合的文本匹配方法。单语义指从单个文本粒度层面上,捕获文本语义特征。该方法集成多个序列编码的单语义特征表示,而不同的序列编码可以从不同角度捕获文本语义特征,能够一定程度上缓解语义特征缺失现象。此外,本文提出了一种新的基于置信区间的损失函数,改善模型在难以正确区分的实例上的分类效果。实验结果表明,该方法能够捕获更加丰富的语义特征,能够有效提升文本匹配效果。
  (2)尽管上述(1)中单语义特征融合的方法可以通过集成多个序列编码的语义特征表示来缓解语义特征缺失问题,但是它无法同时捕获文本不同粒度的语义特征,对文本语义特征的获取仍不全面。为了解决这一问题,本文提出了一种基于多语义特征融合的文本匹配方法。多语义指从多个文本粒度层面上,捕获文本语义特征。通过对多个粒度文本语义特征的综合考虑,本文模型可以同时获取不同粒度的语义特征,能够进一步缓解语义特征缺失现象。此外,本文设计了一种新的损失函数,利用均方误差作为平衡因子以优化交叉熵损失函数。实验结果表明,该方法能够显著改善文本匹配效果。
  (3)尽管上述(2)中多语义特征融合的方法能够整合文本多粒度语义特征,但是它没有考虑不同粒度间的文本语义特征表示的交互。为了弥补这一问题,本文提出了一种基于多语义特征交互的文本匹配方法。该方法不仅可以捕获文本多粒度语义特征,并且可以深入挖掘多粒度间语义特征表示的交互,可以进一步缓解语义特征缺失现象,有效提升文本匹配的性能。实验结果表明,该方法能够取得与BERT可比的效果,但相应的模型参数量远远少于BERT。
其他文献
学位
学位
学位
学位
当今时代随着大数据技术的不断发展,各种复杂网络无处不在。虽然新技术的发展给人类和社会带来了极大的便利,但是也在一定程度上加剧了社会的动荡和不安,因此如何更好的控制这些网络让其更好的为人类服务具有重要意义。然而大多情况下由于复杂系统的未知性和抽象性,复杂网络的拓扑结构往往是未知的。基于此问题,相关研究人员根据系统产生的多元时间序列数据,对复杂网络拓扑结构展开重构工作。本文通过对目前现有的各种网络重构
学位
脑胶质瘤是最常见的原发性颅脑肿瘤,严重危害了人类的身体健康。核磁共振影像(MRI)技术提供了脑肿瘤颅内影像,给予医生诊断与治疗巨大的支持。实现脑胶质瘤精准分割对医生诊断和治疗具有积极的意义。由于脑胶质瘤的大小、形状及位置存在多样性,结构具有复杂性,且不同病人之间有非常大的差异,使基于MRI图像的脑胶质瘤识别与分割仍然十分困难。传统的方法非常耗时耗力,具有不稳定性,且单模态MRI图像无法提供完整的脑
学位
随着IT技术的发展,各种Web服务的数量日益增长,有许多服务都是为相同功能属性目的开发的,而不是基于非功能需求目的开发的。服务质量(Quality of Service,Qo S)作为服务的非功能性属性并不一致,为了吸引用户对这些拥有高质量属性服务的关注,如何为用户推荐高质量的服务成为当前研究热点之一。最近几年,人们对基于Qo S的推荐方法进行了独特的分析,建立了多层面、全方位的推荐方法。然而在研
本文分析了面部年龄预测方法的基本思想和特点,总结了国内外研究现状及其局限性,并提出了面部特征点和纹理特征相结合的年龄预测方法。在现实生活中,我们可以看到随着时间的推移每个年龄段的面部衰老情况会发生相应的变化,对于同一个人来说,每个年龄段的面部特征也会有所差异,我们根据面部衰老特点对年龄预测进行了系统分析。我们提出一种基于面部特征点和纹理特征的年龄预测方法。一方面我们从纹理特征的角度进行研究,随着年
学位
随着智能手机和短视频平台的快速发展与普及,每人拥有一部手机已经成为理所应当的事情,人们已经可以随时随地拍摄视频,甚至是随时随地将视频上传至网络。短视频平台的快速发展更是加快了视频信息的传播,但是个人视频拍摄、上传与公开的便利性同时也会带来不利的方面,比如含有违法内容的视频将成倍的增加。并且违法视频的发布者通常利用网络对使用者隐私保护的机制,匿名作案,这就给法医取证带来了极大的困难。因此,多媒体数据
目标跟踪是根据视频图像序列上下文信息,对第一帧中的目标进行定位并建模处理,进而在后续帧中进行连续跟踪的任务。目标跟踪在智能交通监管、公共安全监控、自动驾驶等领域具有重要用途。深度学习相关方法的出现,为目标跟踪的研究提供了更多选择。尽管近些年很多新算法在目标跟踪问题上取得了巨大的进步,但复杂背景、光照变化、遮挡、形变等仍然是影响目标跟踪精度和准确度的主要因素。近年来,基于深度学习方法的目标跟踪算法在
学位