论文部分内容阅读
随着当今互联网行业的高速发展和网上各种信息平台(如淘宝、亚马逊、豆瓣)的不断完善,用户可以更加方便地表达他们对一些事物的看法或情感倾向。通过情感分析技术挖掘互联网文本中包含的情感倾向,可以帮助商家获取市场反馈信息、帮助企业改进广告投放效果、帮助政府部门有效地监控社会舆论等,具有非常广泛的应用前景。目前,文本情感分析领域的众多学者们已经开展了较深入的情感分析研究,但尚存在许多需要探索和改进的地方。首先,在情感词典构建方面,现有的基于词向量的情感词典构建方法可以在特定领域中自动地构建较高覆盖率和准确度的情感词典,而无需复杂的特征工程。但在构建过程中具有相反情感倾向和语义的词语常常会出现在相似的语境中,词向量在训练时难以区分该类单词,使得学习到的情感词分类性能欠佳。此外,在构建情感词典时,带情感标签的种子词是情感词分类器的训练集,当种子词的质量较差时往往会给情感词典的性能表现带来负面影响。其次,在文档级情感分类方面,基于注意力机制的神经网络方法能够根据输入文本的词汇信息、句子内容信息等判断其对分类的重要性,并对重要的词和句子给予更高的关注权重,进而达到提升分类性能表现的目的。但已有的局部语义注意力机制并没有充分利用有助于判断文档类别的语言知识信息,且目前已存在的基于语言知识的情感分类模型多为词袋模型,难以捕捉长文本序列表达的语义。因此,针对以上问题,本文的主要研究内容如下:1.为提高词向量区分情感倾向类别的能力,提出了一种基于情感语义对比信息的词向量学习模型。通过向词向量学习模型中融入情感语义对比信息,增大情感倾向相同的词之间的相似程度,减弱情感倾向相反的词之间的相似程度。最终,将该模型的词向量定义为情感语义对比词向量(SSCWE),并对比其他词向量来证明其有效性。2.为提高情感词典区分情感倾向类别的能力,提出了一种基于种子词扩展的情感词典构建(SCLex)方法。首先,在综合考虑了单词在语料中的覆盖面、情感倾向强度和情感类别区分能力的基础上,基于SSCWE扩展情感种子词;然后,基于扩展后的种子词和SSCWE词向量训练情感词分类器并获取情感词典;最后,在三个真实数据集上证明了该情感词典构建方法的有效性。3.为提高文档情感倾向分类准确度,提出了一种基于语言知识注意力机制(LKA)的文档情感倾向分类模型。首先,为捕捉长句子和长文档的语义信息,使用双向长短时记忆网络(BLSTM)构建层次网络;然后,为充分利用文本中的语言学知识,基于词语级BLSTM和句子级BLSTM的隐状态、情感词典SCLex、否定词和程度词构建基于语言知识注意力机制的分类模型;最后,在三个真实数据集上证明了该模型的有效性。