论文部分内容阅读
随着互联网的快速发展,电子商务和社交平台的涌现,大量用户在互联网上发表观点和看法、抒发情感和表达见解,产生了大量的短篇或长篇评论。利用自动情感倾向性分析技术挖掘海量评论文本所包含的情感倾向,能够发现大众的情感演化规律,为制定营销策略和监控社会舆情提供决策支持,具有重要的应用价值。然而,由于短文本评论的有效情感词少,长文本评论的篇幅长、正负情感特征分布离散,现有方法仍存在较大的提升空间,因此论文分别针对短文本和长文本评论情感倾向性分析中存在的难题进行研究。论文的主要成果和创新包括:(1)提出了一种扩展语义相似情感词的短文本情感倾向性分析方法。针对由于短文本评论有效情感词少导致的情感特征稀疏问题,提出一种基于扩充语义相近情感特征的短文本情感倾向性分析方法。该方法首先基于词嵌入相似性度量扩展语义相似的词语为情感特征,然后联合文档频和词频(DF-TF)特征进行特征降维,最后利用Adaboost算法进行情感分类。在酒店和手机评论语料上进行实验,结果表明,情感分类正确率高,分类效果较好。该方法通过计算词间语义相似度扩充情感词有效地丰富了短文本的情感语征,提出的文档频-词频特征降维方法进一步提升了情感分类的正确率。(2)提出了一种基于注意力双层LSTM的长文本情感倾向性分析方法。针对由于长文本评论篇幅长,正负情感特征离散分布且每个句子的的情感语义贡献度不同,导致难以准确判断全文情感倾向的问题,提出一种基于注意力双层LSTM的长文本情感倾向性分析方法。该方法首先利用LSTM学习句子级情感向量表示;然后采用双向LSTM对文档中所有句子的情感语义及句子间的语义关系进行编码,并基于注意力机制对具有不同情感语义贡献度的句子进行权值分配;最后,加权句子级情感向量表示得到长文本的文档级情感向量表示,经过Softmax层得到长文本情感倾向。在Yelp2015和IMDb电影评论语料上实验,结果表明该方法能达到了较好的分类效果,进一步提升了情感分类的正确率。(3)构建了一个评论文本情感倾向分析的原型系统。为了实现判定评论文本情感倾向性,设计并实现了一个评论文本情感倾向分析系统。系统采用B/S架构,主要功能包括预处理、短文本情感倾向判定、长文本情感倾向判定和结果显示。系统中各模块相互独立,在模块间采用文件的方式进行数据交互,降低模块间的耦合度,系统界面友好、兼容性强、稳定性好。