论文部分内容阅读
文本表示是不同自然语言处理任务的基础,需要将一段由字和词组成的序列表示成计算机可以处理的数字信息。一个好的文本表示需要体现出文本自身的语法特征和语义特征,但是如何将语法和语义由数字精确地表示,一直是自然语言处理领域面临的最大挑战。近年来,深度学习的兴起使文本表示出现了更多的可能性。以注意力机制为基础的文本表示方法有着灵活的建模方式、良好的解释性、高效的计算能力等特征,而被研究者们所青睐。但是,现有的基于注意力机制的文本表示方法,大多存在两个问题:1.注意力机制方法是加权求和的方式,没有考虑词的相对位置关系,即缺少了文本结构信息;2.注意力机制有很多基本计算方法,且差异巨大,这会使模型设计更加繁琐。本文主要研究了基于注意力机制的文本表示方法,依据上述两个问题,工作内容可以概括成以下两点:(1)提出了基于注意力机制的多位置信息的文本表示方法,使用不同的屏蔽矩阵应用于注意力机制,提取了多种文本结构信息的文本表示;并设计融合机制,将多种文本表示整合为统一文本表示。这样能将词的相对位置信息引入注意力机制中,修正加权求和方式,解决注意力机制缺少文本结构信息的问题。具体地说,本文设计了远距离屏蔽矩阵、距离惩罚矩阵,提取了文本的局部信息,同时使用了前向、后向屏蔽矩阵,提取了文本的序列信息;另外,在融合机制中,设计了参数共享策略,使得待训练参数数量从平方量级降低到了线性量级。通过在情感分析任务和文本分类任务上对我们提出的基于注意力机制的多位置信息的文本表示方法进行测试,实验结果表明,基于注意力机制的多位置信息的文本表示方法不仅在时空复杂度上有优势,而且有更好的测试集正确率。(2)提出了注意力机制中参数可调的文本表示方法,从参数角度总结并比较了注意力机制的各种变体,寻找到了较优的注意力机制设计方法,给出了注意力机制设计的指导。本文提出了两种新的兼容函数:常数兼容函数、混合兼容函数。其中,混合兼容函数同时考虑了拼接和乘法的向量联合方式。本文在斯坦福情感分析数据集上,对注意力机制中参数可调的文本表示方法进行了兼容函数设计和多维方法的验证,实验结果表明,本文设计的混合兼容函数在注意力机制中提取信息的能力优于其他兼容函数,且多维方法对注意力机制均有所提升。