自然语言文本中否定论元的自动识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:guomingjie000111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言文本的否定语义是一种普遍而复杂的语言现象,通常用于表示人们对某一观点的态度。否定表述通常包含一个否定触发词(如“不会”),该词针对表述本身或其某一方面的语义进行了反转。此外,否定表述中一般还存在一个与否定触发词对应的的否定论元,以及其所隐含的积极意义。近十年来,否定论元识别一直受到自然语言处理研究的广泛关注。目前,否定语义识别的相关研究主要集中在三个方面:1)否定触发词识别,即识别出文本中的否定线索词或否定表达;2)否定覆盖域检测,即在一个句子中识别被否定触发词作用的的语义范围;3)否定论元识别,即识别一个否定表述中最显著被否定的部分。本文研究主要针对第三个方面,具体研究内容包括以下三部分。1.基于双向LSTM与CRF融合模型的否定触发词及否定论元识别。针对否定触发词识别,相关研究主要采用基于词表(词典)、基于统计或基于序列标注等传统方法,而否定论元识别方法主要集中在基于规则和基于特征工程的方法,这些方法大多依赖于领域专家进行模版或特征设计,需要耗费很多的人力和时间代价。因此,本文借鉴深度学习方法在各项自然语言处理研究中的成功经验,通过神经网络来自动学习参数以及深层语义特征表示。实验表明,本文方法能够自动地学习有效特征,并且性能高于目前最好的系统。2.基于上下文注意力机制的否定论元识别。目前,针对否定论元识别的相关研究大多仅考虑句子内部的词法、句法、语义等特征,忽略了上下文语境。通过对开发数据集的分析,本文观察到,不同语境下,作者所强调的重点具有很大差异。因此,本文结合注意力机制和基于主题的语义表示方法,实现基于词级别注意力机制和主题级别注意力机制的否定论元识别系统,并探讨了上下文信息对系统性能的影响。实验表明,本文的方法能够有效捕获相邻句子间的上下文依赖关系,其性能取得了SEM’12评测数据集上的最好结果。3.汉语否定论元语料库构建。目前,面向汉语的否定论元识别研究进展缓慢,其主要原因是缺乏面向汉语的语料库。因此,本文基于CNeSp语料库进行面向汉语的否定论元识别语料标注工作,该语料库是首个针对汉语的否定论元识别研究语料库,包含财经新闻、酒店评论、科技文献三个领域的内容,其规模为16841句,共4039个包含否定论元的实例。同时,本文对相关统计进行了分析,并采用LSTM模型构建了基准系统,为面向汉语的相关研究提供了语料资源的支持。本文致力于面向自然语言文本的否定论元自动识别研究,提出了一系列方法提升相关任务的性能,并推动了该研究在汉语上的进展。希望本文的研究对今后否定论元识别领域的相关研究具有一定的参考价值,促进深度自然语言理解的发展。
其他文献
在雾霾等低能见度天气下,光电成像探测系统受大气散射影响,成像质量下降。研究雾霾天气下的目标偏振重构方法,提高探测图像的清晰度与对比度具有重要的研究意义与应用价值。
近两年,5G时代的到来给人工智能行业带来了前所未有的机遇与挑战。行人再识别与目标跟踪作为计算机视觉中两个重要的组成部分,其在智能安防中起到了不可或缺的地位与作用,近
在《“十三五”国家科技创新规划》中,中国提出计划建设新一代居住型深海作业平台——深海空间站。圆环壳作为深海空间站较为理想的耐压壳主体结构形式,为了保证其设计和制造的可靠性,对均匀外压作用下圆环壳失效的主要形式之一——屈曲问题,作出正确的预测是十分重要的。同时考虑到中国船级社(CCS)和压力容器关于均匀外压作用下圆环壳的相关标准规范较少,对圆环壳屈曲特性开展深入研究,探索高效且精准的屈曲载荷预测方式
随着国家“体育强国”战略目标的提出,以及武术被纳入青奥会正式比赛项目,武术类体育项目对于国家体育发展越来越重要。武术项目不仅是现代体育的载体,同时也是民族文化的传
牧区集体经济作为社会主义市场经济的重要组成部分,发展壮大牧区集体经济已成为推动经济社会发展、增加农牧民收入的重要途径。改革开放以来,牧区集体经济的发展呈现出多元化
近年来“大力培育新型职业农牧民”多次出现在中央一号文件中,体现了党和国家对培育新型职业牧民的重视。牧民是牧业现代化发展的中坚力量,对牧业的发展起着至关重要的作用,
硅/有机杂化太阳能电池有望充分利用硅材料优良的光电性能和有机光电子材料成本低、易加工,其光电性质可通过分子结构裁剪来实现多样化等优势来制备低成本、高效率的新型太阳能电池。本论文采用密度泛函理论模拟计算硅与不同电子传输材料之间的间距来挑选合适的有机物;在理论计算的基础上,进一步通过实验研究验证了理论计算的结果。此外,本论文还研究了水浴加热法制备参数与硅微金字塔结构的尺寸、均匀度等关系,实现了硅微金字
中高压直流输电、新能源分布式发电、储能设备以及直流负荷的快速发展与成熟,对中高压直流配电网的应用提出了迫切的需求。直流固态变压器(DC Solid State Transformer,DCSST)作为中高压直流配电网应用中的关键环节,受到了国内外学者的广泛关注。目前来说,DCSST的拓扑结构普遍采用双有源桥变换器(Dual Active Bridge,DAB)的串并联,但是该结构无法实现冗余设计和
面部表情中包含大量信息,其识别技术赋予计算机感知人类情感的能力,在教育、医疗、安全、驾驶员疲劳监测、机器人等领域中有大量应用,具有重要的学术和应用价值。在人脸表情
城市供水管网具有易发生漏损、爆管的特点,且故障难以快速定位和检修。结合国内外的研究现状,本文从系统科学的角度出发,通过提取拓扑结构的特征及结合其工作原理,将复杂交错