论文部分内容阅读
Web2.0时代的到来,催生了如Twitter、新浪微博、微信等多种新型社交媒体。借助于互联网平台的开放性、交互性、超时空性和动态实时性等特点,其消除了人们在社交过程中可能遇到的时间、地理位置、活动范围和活动人数等的限制。使得现实社会中所发生的热点事件所包含的各种类型的情感可以通过互联网用户的多种交互行为,例如评论、转发和点赞,在现实世界和虚拟世界中进行实时地传播、扩散和演化。分析事件多维度的情感并挖掘事件的不同情感模式,可以得到事件具体的情感信息,从而对事件不同类型的情感进行准确的度量;分析事件多粒度的情感可以从不同粒度对事件情感进行把控,不仅让事件的处理更加具有针对性,也可以对事件的不同层次的情感有全面、细致的了解,从而为决策的制定提供更加具有针对性和准确的指导。但是,社交媒体事件文本存在的海量稀疏、动态异构、隐晦模糊等特点使得事件多维度和多粒度的情感计算难度增大。目前,绝大多数社交媒体文本情感分析方法仅从正向、负向两个极性或正向、负向和中性三方面对文本的情感进行度量,其不仅造成了情感状态的丢失也存在情感模式的丢失问题。并且,当前的文本情感计算方法并没有对事件文本情感的多粒度分析,仅使用机器学习方法或从情感词典的角度对文本情感进行分析,缺乏事件情感分析的层次性。为了对社交媒体事件的情感进行准确的度量,我们提出了社交媒体中多维度与多粒度的事件情感计算方法。具体研究内容分为四个部分:(1)为了解决社交媒体热点事件文本数据海量稀疏的问题,我们构建了文本情感数据中事件侧面和情感计算模型(PECM)以及融合基本词汇情感库的事件侧面和情感计算模型(DSPECM)。模型中以文本词汇和标签作为模型的输入,输出文本的侧面分布和情感分布,以及侧面的词汇分布和情感的词汇分布。并且,在DSPECM模型中,我们将具有明确情感的词汇作为词汇情感的约束条件,增强文本情感计算的准确性。(2)为了计算事件侧面内动态异构的情感数据中的词汇粒度的情感,我们提出了基于词汇情感关联语义链网络的词汇情感计算模型。首先,利用有标签文本的词汇、标签以及词汇的共现构建词汇情感关联语义链网络,通过网络有限次的迭代计算词汇节点的情感强度值。其次,利用基本词汇情感库中的词汇情感对网络进行修正,之后再重新迭代计算词汇情感。该方法有效克服传统方法的情感不确定性问题。(3)为了辨识隐晦模糊的情感之间的相互作用,我们提出了基于情感共振抑制环的文本情感计算模型。一方面,我们考虑情感之间的相互影响,尽可能在保证文本的主要情感不变的条件下削弱次要情感和噪音情感,因此构建了情感共振抑制环。另一方面,我们考虑词汇在不同的语境中表达的情感不同,为了挖掘具体情感表示的词汇组合,我们提出情感模式的概念,发现事件侧面文本集合中的情感模式,以对文本词汇情感的模糊性进行修正。(4)为了更加准确计算事件不同侧面内的整体情感强度,我们提出了基于用户重要性和文本重要性的事件侧面情感计算方法。通过用户层、粉丝层和微博层对用户重要性进行衡量,通过文本的交互类型及交互次数对文本重要性进行衡量,最后将文本重要性、发布文本的用户重要性和文本情感综合考虑进事件侧面的情感计算中,计算事件侧面的不同维度的情感强度,以高效准确完成事件多维度与多粒度的情感计算。本论文的研究可以用于舆情的监控中,分析热点事件不同维度的情感并可准确挖掘事件的主要情感,帮助民众快速了解事件发展过程中的情感变化以及帮助决策者制定方案。该研究还可以用于产品功能的舆情分析,分析用户对于产品的情感状态,为企业提供改善产品和服务的意见,发现竞争产品的优劣势以及给用户提供产品购买建议。