基于注意力机制的文本表示研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示是不同自然语言处理任务的基础,需要将一段由字和词组成的序列表示成计算机可以处理的数字信息。一个好的文本表示需要体现出文本自身的语法特征和语义特征,但是如何将语法和语义由数字精确地表示,一直是自然语言处理领域面临的最大挑战。近年来,深度学习的兴起使文本表示出现了更多的可能性。以注意力机制为基础的文本表示方法有着灵活的建模方式、良好的解释性、高效的计算能力等特征,而被研究者们所青睐。但是,现有的基于注意力机制的文本表示方法,大多存在两个问题:1.注意力机制方法是加权求和的方式,没有考虑词的相对位置关系,即缺少了文本结构信息;2.注意力机制有很多基本计算方法,且差异巨大,这会使模型设计更加繁琐。本文主要研究了基于注意力机制的文本表示方法,依据上述两个问题,工作内容可以概括成以下两点:(1)提出了基于注意力机制的多位置信息的文本表示方法,使用不同的屏蔽矩阵应用于注意力机制,提取了多种文本结构信息的文本表示;并设计融合机制,将多种文本表示整合为统一文本表示。这样能将词的相对位置信息引入注意力机制中,修正加权求和方式,解决注意力机制缺少文本结构信息的问题。具体地说,本文设计了远距离屏蔽矩阵、距离惩罚矩阵,提取了文本的局部信息,同时使用了前向、后向屏蔽矩阵,提取了文本的序列信息;另外,在融合机制中,设计了参数共享策略,使得待训练参数数量从平方量级降低到了线性量级。通过在情感分析任务和文本分类任务上对我们提出的基于注意力机制的多位置信息的文本表示方法进行测试,实验结果表明,基于注意力机制的多位置信息的文本表示方法不仅在时空复杂度上有优势,而且有更好的测试集正确率。(2)提出了注意力机制中参数可调的文本表示方法,从参数角度总结并比较了注意力机制的各种变体,寻找到了较优的注意力机制设计方法,给出了注意力机制设计的指导。本文提出了两种新的兼容函数:常数兼容函数、混合兼容函数。其中,混合兼容函数同时考虑了拼接和乘法的向量联合方式。本文在斯坦福情感分析数据集上,对注意力机制中参数可调的文本表示方法进行了兼容函数设计和多维方法的验证,实验结果表明,本文设计的混合兼容函数在注意力机制中提取信息的能力优于其他兼容函数,且多维方法对注意力机制均有所提升。
其他文献
随着我国加入WTO,零售业对外资的限制逐步被取消,国外的商业巨头纷纷加入,国内超市行业的竞争也愈加激烈。各大中外零售业的巨头在迅速扩张和并购后,战争由市场份额的争夺,转
二十世纪八十年代随着经济体制的改革,四川北路开展了一种围绕地方性生活的商业发展。实惠的商品和服务、与周边社区紧密关联的沿街商业设施使得四川北路在当时成为上海最受
党的十八届五中全会通过了“十三五”规划建议,从补齐影响全面建成小康社会的短板为出发点,在涉及人民健康的重点方面,提出推进健康中国建设,将健康中国上升为国家战略。而作
【正】 世人认为:“钱能通神”、“有钱使得鬼推磨”。《钱神论》是魏晋时抨击货币权力和货币拜物教现象的文章。有两篇。一是魏晋之际成公绥(231~273年,东郡白马,今河南省滑
<正>职业判断是注册会计师的灵魂。在人工智能技术日益发达的现在和未来,职业判断是注册会计师这一职业存在的价值。海峡两岸及港澳地区会计师行业交流研讨会发布的《注册会
本文在分析了目前国内外连锁董事研究现状的基础上,结合我国的实际情况,从理论和实证两个方面比较系统的对我国连锁董事现象做了研究,旨在使我们对我国的连锁现象有一个较为
“共生写作”区别于以往简单告诉学生写作技巧之后就让他们自己去写,写完了再点评的教学模式,它指的是:教师用自己的写作感受,在课堂上通过对话、交流、碰撞,引导激活学生的
近几年城市旧区改造高强度开发 ,新区建设规模扩大 ,由此带来的交通环境问题日益突出 ,在大城市和特大城市尤其如此。本文提出了对建设项目进行交通评估的建议 ,并以上海市为
随着时代的发展和社会的变迁,知识经济飞速发展,“文盲”一词不再单纯指没有文化的人,而是指不会学习、不会更新知识的人。如何培养具备自主学习能力和创新精神的人才?广大一线教
随着精密工程和微纳技术的迅速发展,精密定位技术已经成为超精密加工、光电子、生物工程等前沿学科中的关键技术。在精密定位技术中,压电陶瓷以其体积小、承载力大、响应速度