论文部分内容阅读
移动互联网的井喷式发展使得社交平台短文本正以爆炸式的速度产生,然而传统文本分析方法难以应对短文本的稀疏性、随意性与热词性,且大部分应用深度学习的短文本分析都是针对英文语料,如何高效地分析、提取中文社交网络短文本的情感倾向具有不可估量的商业和社会价值。本文首先系统分析了传统文本情感分析模型,将词典方法与机器学习模型结合,完成情感分类器的训练。发现词典方法并不适用于简短随意的短文本,且传统方法数据预处理阶段滤除表情字符,造成重要情感特征的缺失。本文引入深度学习模型,结合社交网络短文本的特点,提出面向中文社交网络的短文本情感分析新机制。一方面使用word2vec工具训练词向量,提取短文本的语义特征,另一方面保留、提取微博文本中的表情字符,作为情感特征,共同构成多维特征集合;再通过卷积神经网络模型挖掘深度抽象特征,最终训练分类器完成情感分类任务,解决传统方法难以对短文本有效建模、分析的问题。实验结果表明,表情字符的融入使得情感分析准确率相对提高2.62%;此外,相比基于词典的机器学习模型,基于卷积神经网络的多维特征情感分析新机制将情感分析准确率与F度量分别相对提升21.29%和19.20%。