自注意力机制在语义理解和情感分析中的研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wangkaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的发展,自然语言处理技术经历了从统计机器学习到神经网络学习的阶段。随后注意力机制的应用使其在信息提取、机器翻译等问题上取得了巨大的进步,同时也使它在企业舆情监控中得到了广泛的应用。在企业的决策与发展中,公关人员需要根据网络上与公司相关的舆情数据分析过去一段时间内公司的口碑信息,并预测未来一段时间内公司舆情的发展与走向。在将注意力与自然语言处理技术相结合应用到企业舆情分析中时,面临着诸多亟待解决的问题。如针对互联网公司出现的舆情文本数据与针对金融企业的舆情数据所表达的文本信息主题不同,文本处理成结构化数据的方法不同,都可能会导致信息在完整度上的缺失与歧义。注意力最早被应用在计算机视觉领域里,随后,人们开始研究注意力机制在自然语言处理中的应用,如机器翻译任务。其后注意力机制被广泛应用在基于循环神经网络和卷积神经网络的各种自然语言处理任务中。自注意力机制则是注意力中的一种特殊情况,它在提取文本特征的时候起着重要的作用。目前注意力模型多与编码器-解码器联合使用。编码器-解码器是深度学习领域中的一种研究模式,应用场景广泛。本文提出了一种自注意力编码器与解码器的语义理解方法,通过深度分析舆情文本数据,实现对企业舆情的监测。首先针对文本数据的处理,本文给出了一种混合的语言表示方法,即深度语言理解模型。在字词向量的学习过程中,通过研究传统的连续词袋模型,我们发现了其在字词表示学习中的一些不足之处。为了改进语言的表示方法,我们在词袋模型的基础上,使用长短期记忆网络学习字词之间的时序关系,同时引入文本中实体识别的知识帮助改进字词的表示学习。在特定领域下,某些字词具有特殊含义。为了学习字词在具体情境下的语义,相应的实体知识不仅可以用于增强字词的学习过程,而且能够将字词转换成特定空间领域使用向量表示。其次,针对文本中特征提取的复杂性,本文引入了一种自注意力编码器与解码器,解决了端到端的文本序列处理问题。该方法将自注意力机制与传统的编码器-解码器相结合,充分学习整体语句的表示特征,完成句法层面的特征表达与学习,同时其抽取的特征与下游的具体任务也有着十分密切的联系。最后,为了实现对舆情的监测,本文给出了一种基于神经网络的舆情评分模型。该模型使用了本文提出的深度语言理解模型表示方法和基于自注意力的编码器-解码器特征提取方法,对舆情数据进行情感评分。通过实验对比与分析,证明了本文提出的语言表示方法和文本特征提取器在舆情分析中具有显著的效果。
其他文献
本文详细介绍了广州2010亚运会电视转播的运行机构、组织形式、系统架构和运行模式。通过对场馆转播系统和IBC信号采集、分配、传输、监控、收录等系统的描述,使大家对广州亚
采用负离子原位聚合工艺制备了聚丁二烯(PB)/SiO2纳米复合材料,研究了复合材料的结构及性能。结果表明,经过γ-(甲基丙烯酰氧基)丙基三甲氧基硅烷(MPS)处理后的SiO2粒子与PB基体形成了
医疗事故导致的医患纠纷已成为目前全社会关注的焦点.而医疗事故的鉴定又是重中之重,且争议最大,同时也是最关键的环节,全社会都希望有一个公平、公正、合法的鉴定机构.最近,
结合750 kV变电站综合自动化系统的运行实际,对超高压变电站综合自动化系统的结构、原理和应用进行了分析。
负压射孔工艺已经成为一种标准射孔方法而被广泛地应用,而近年研究人员才发现以前被忽略的在射孔弹起爆后引起的瞬间压力波动是影响射孔孔道清洁程度的主要因素,而不是初始压
采用过氧化二异丙苯(DCP)和由促进剂M、促进剂TRA、促进剂BZ及硫黄组成的硫化体系对三元乙丙橡胶实施复合交联,研究了复合交联体系对混炼胶的硫化特性、硫化胶的力学性能及耐