论文部分内容阅读
随着社交媒体的快速发展,微博用户数量不断增加,其日活跃用户数量达到1.5亿。用户通过微博来发表观点、表达情感、分享和传播信息,所产生的庞大数据资源蕴藏着巨大的商业价值,吸引了国内外学者投身到微博情感分析研究工作中。在微博情感分析任务中,虽然纯文本数据资源较多,但有标注的数据集却较为匮乏,从而导致模型不能得到较好的训练。针对此问题,研究者们在纯文本数据集和标注数据集构成的混合语料上,利用Skip-Gram、CBOW等语言模型对词表示进行更新,来学习微博短语中的语义信息,进而提高模型情感分析的性能。在上述理论基础上,本文提出了基于循环神经网络(RNN,Recurrent Neural Network)和条件随机场(CRF,Conditional Random Field)的微博情感分析方法,具体研究内容包括:(1)通过对否定词后出现的动词、形容词和副词添加否定标记,对有否定词出现的微博短语进行否定扩散,该方法通过改变否定词后情感词包含的情感信息,来协助模型对包含否定词的微博短语实现情感转移。(2)微博情绪识别任务中不平衡数据集导致模型倾向于预测高频情感类别,本文提出基于语义相似度的数据集平衡方法,以解决此问题。该方法通过将语义相似度最大、情感类别相同的样本合并为一个样本,从而在没有信息损失的情况下缓解数据集的不平衡性。(3)在循环神经网络和条件随机场模型的基础上,提出双向长短期记忆网络与条件随机场联合的微博情感分析模型(BLSTM-CRF,Bidirectional Long Short Term Memory-Conditional Random Field)。该模型在完成序列标注模型训练的同时,训练语言模型,从而使模型训练过程中可以充分的利用已有数据,来学习上下文的语义信息、协助模型预测微博短语的情感类别。本文在细粒度NLP&CC 2013情绪识别、粗粒度CCIR 2014情感倾向性分析和电脑、酒店、书籍平衡数据集的消费评价任务中,验证了此模型的有效性。