论文部分内容阅读
越来越多的用户喜欢通过微博来实时分享自己的观点或者表达自己的情感,因此,面向微博的意见挖掘或情感分析成为了研究热点。其中,微博主客观分类研究是意见挖掘和情感分析研究的基础,其主要任务是区分微博中表达主观观点的文本和表达客观事实的文本,并进一步从主观性文本中挖掘潜在有价值的信息。此外,面向微博的主客观分类研究对意见问答系统、观点摘要等工作也具有重要意义。本文针对中文微博的主客观分类问题,分别研究了语法和语义特征结合不同特征选择方法对微博主客观分类的影响,同时对基于融合特征的微博主客观分类方法进行了探索性研究。本文主要研究成果如下:(1)针对语法特征,提出了基于2-gram的词、词性特征的提取算法。本文借鉴2-gram模型分别提取了微博文本的连续双词(2-word)、连续双词词性(2-pos)组合模式特征作为语法特征来进行微博主客观分类研究。(2)针对语义特征,充分考虑了情感分析经验以及微博文本特点,提出了微博内容特征、比重特征等丰富的语义特征,并引入了微博文本情感词库来进行微博主客观分类研究。(3)针对微博文本特征选择问题,分别对两类特征选择方法进行了分类性能比较。本文分别利用不同特征选择方法对语法和语义特征进行评估来获取最优特征集,并结合分类模型对分类效果进行了比较。(4)针对微博主客观分类问题,提出了一种基于融合特征的微博主客观分类方法。该方法通过设计特征融合算法对不同特征选择方法进行有效组合来获取融合特征,并结合机器学习方法来进行微博主客观分类研究。本文研究构建了更丰富的主客观分类特征,并设计了一种特征融合算法来探索特征选择方法组合后对主客观分类效果的影响。实验证明,本文提出的特征融合算法可以有效提高主客观分类效果,同时构建了相对通用的主客观分类模型。