论文部分内容阅读
随着信息科学技术的发展,自然语言处理技术经历了从统计机器学习到神经网络学习的阶段。随后注意力机制的应用使其在信息提取、机器翻译等问题上取得了巨大的进步,同时也使它在企业舆情监控中得到了广泛的应用。在企业的决策与发展中,公关人员需要根据网络上与公司相关的舆情数据分析过去一段时间内公司的口碑信息,并预测未来一段时间内公司舆情的发展与走向。在将注意力与自然语言处理技术相结合应用到企业舆情分析中时,面临着诸多亟待解决的问题。如针对互联网公司出现的舆情文本数据与针对金融企业的舆情数据所表达的文本信息主题不同,文本处理成结构化数据的方法不同,都可能会导致信息在完整度上的缺失与歧义。注意力最早被应用在计算机视觉领域里,随后,人们开始研究注意力机制在自然语言处理中的应用,如机器翻译任务。其后注意力机制被广泛应用在基于循环神经网络和卷积神经网络的各种自然语言处理任务中。自注意力机制则是注意力中的一种特殊情况,它在提取文本特征的时候起着重要的作用。目前注意力模型多与编码器-解码器联合使用。编码器-解码器是深度学习领域中的一种研究模式,应用场景广泛。本文提出了一种自注意力编码器与解码器的语义理解方法,通过深度分析舆情文本数据,实现对企业舆情的监测。首先针对文本数据的处理,本文给出了一种混合的语言表示方法,即深度语言理解模型。在字词向量的学习过程中,通过研究传统的连续词袋模型,我们发现了其在字词表示学习中的一些不足之处。为了改进语言的表示方法,我们在词袋模型的基础上,使用长短期记忆网络学习字词之间的时序关系,同时引入文本中实体识别的知识帮助改进字词的表示学习。在特定领域下,某些字词具有特殊含义。为了学习字词在具体情境下的语义,相应的实体知识不仅可以用于增强字词的学习过程,而且能够将字词转换成特定空间领域使用向量表示。其次,针对文本中特征提取的复杂性,本文引入了一种自注意力编码器与解码器,解决了端到端的文本序列处理问题。该方法将自注意力机制与传统的编码器-解码器相结合,充分学习整体语句的表示特征,完成句法层面的特征表达与学习,同时其抽取的特征与下游的具体任务也有着十分密切的联系。最后,为了实现对舆情的监测,本文给出了一种基于神经网络的舆情评分模型。该模型使用了本文提出的深度语言理解模型表示方法和基于自注意力的编码器-解码器特征提取方法,对舆情数据进行情感评分。通过实验对比与分析,证明了本文提出的语言表示方法和文本特征提取器在舆情分析中具有显著的效果。