论文部分内容阅读
随着社交网络的发展,互联网中每天都在涌现大量的富含主观情感的信息,如论坛贴子、微博、在线评论等,这些主观信息在互联网信息挖掘中具有重要价值。情感分析,又称为观点挖掘,其研究目的是理解文本中人们对于某个实体(包括产品、服务、个人、组织机构、事件、议题)的评判态度(支持或反对、喜欢或厌恶等)或情绪状态(高兴、愤怒、悲伤、恐惧等)。本文重点研究不同文本粒度下情感分析的关键问题。在词语级情感分析中,本文重点关注的问题是:词在不同领域下往往会表现出不同的情感倾向性。本文提出亲和力传播算法以判断特定领域下词的语义倾向性。该算法首先基于激活力模型构建原始语料集的词亲和力网络,该网络通过词之间的语义激活关系计算词的链接结构相似度。然后,算法将词表示为富含全局语义信息的亲和力向量以计算该词与种子情感词之间的相似度,从而完成情感信息在整个词网中的传播。实验结果表明,该算法可针对不同领域有效地构建语义倾向性词典。本文将文档级情感分析看作是一种分类任务而重点研究特征选择对提升文档情感分类性能的作用。借鉴线性鉴别分析算法的思想,本文提出了无监督的情感鉴别分析(SDA),通过每个文档的局部情感散度矩阵构建目标函数,求解最优线性分类器,进而获得每个特征的情感鉴别得分。另一方面,本文利用激活力模型计算每个特征与先验情感词的整体亲和力,即全局情感强度。本文认为SDA保留了文档之间的局部情感结构,而情感强度计算(SSC)则侧重于特征在语料集中的全局情感倾向性,二者具有一定的互补性。因此,本文将SDA和SSC进行线性加权组合并最终形成了无监督情感特征选择算法—USFS。文档级情感分析的细致度有时无法满足某些应用场合的需求,因而还需要进行要素级情感分析。要素级情感分析是针对情感定义中的五个基本要素进行观点挖掘,是一种更细粒度的情感分析技术。属性抽取是其中的一项重要任务,而对属性的置信度评估则是确保系统抽取性能的关键。本文提出了一种两步置信度评估法:在基于模式的Bootstrapping算法中通过“广泛度”和“可靠度”交互式地评估候选产品特征词和依存模式;第二步将上一步获得的候选特征词聚合为属性类,通过衡量聚合类的“紧凑度”和“材质”进行过滤。针对电子产品评论的实验表明,本文提出的两步置信度评估法可同时保证属性抽取的准确率和召回率。另外,在属性抽取的基础上,本文还提出了一种迭代式地聚合计算策略,从产品属性的所有评价搭配中有效地分析了该属性在整个评论集上的全局信誉度。最后,本文提出一种在线的产品属性情感摘要系统——SSPA。SSPA综合运用词语级、句子级、要素级的情感分析技术将非结构化的原始产品评论集转化为结构化的基于产品属性的情感摘要。摘要中首先列出关于某类产品的所有属性,然后按情感强度将各个属性下的正、负倾向性句子及其所评论的产品名称展现给用户。SSPA系统可方便消费者或商家浏览某类产品不同属性下的产品评价情况。