论文部分内容阅读
随着社交媒体的日益普及,互联网用户越来越习惯于在社交媒体中评论话题、表达观点。社交媒体用户规模庞大,观点涉及话题广泛,使其成为包含大量针对流行话题的用户观点的宝贵资源库。然而用户表达观点的方式多种多样,使得社会媒体中的观点文本呈现出碎片化、噪音多、非结构化等特征。因此,在社交媒体中通过人工方式分析总结用户观点非常困难,如何借助计算的手段自动地分析并总结出社交媒体全体用户的观点信息成为一个重要挑战。本文主要研究社交媒体用户观点的自动分析问题(包括观点挖掘和整合集成),希望能对用户在社交媒体上就所关注话题发表的大量观点进行建模,并基于此模型进一步对社交媒体中用户行为进行分析。为了对问题进行系统地研究,本文将问题分解为观点分析与基于观点的行为分析,其中观点分析又由情感知识的抽取、观点文本情感极性分类、用户观点集成三部分组成。本文的主要贡献如下:?中文情感词典的抽取和构建:目前常见的情感词典基本都是英文词典,这些词典在英文观点文本识别、极性分类等任务中起到了重要作用,是进行观点分析的基础。中文情感词典抽取和构建方法研究相对较少,还没有形成比较全面可靠的情感词典。靠人工标注形成的情感词典对时间和人力要求较高,但是词语覆盖度偏低,因此需要研究自动构建情感词典的方法。本文根据不同语言间表达情感知识的词汇间对应性,使用How Net语义知识库转化英文情感词典的情感知识,抽取对应的中文情感词汇并计算情感极性值,自动构建了中文情感词典Senti How Net。为了提高词典的覆盖度以及领域适应性,本文分析验证了基于语料资源中连词语言规则和上下文统计特征的情感词典扩展方法,并提出了混合方法对Senti How Net在领域语料内进行扩展。使用本文方法得到的中文情感词典可以自动构建无需人工标注,与现有中文情感词典相比,覆盖度和领域适应性更好。?基于特征空间划分的情感极性分类:对于情感极性分类问题来说,不同情感词表达情感的作用范围、使用语境存在一定的差别,有些词语能在不同领域和语境中表达不变的情感极性,而有些词语只有在特定的领域和语境中才能表达特定的情感极性。因此,本文提出了将特征空间划分为领域独立和领域依赖两部分的情感极性分类方法,该方法分别在两部分特征空间上训练分类器,然后将两个分类器组合在一个框架中形成一个更强的情感极性分类器,框架从现成的成语词典和远程监督数据资源开始,使用自举式迭代机器学习方法,可以在无需标注数据进行训练情况下达到有监督机器学习方法的性能。?用户观点的集成建模:社交媒体中用户产生的内容往往是短小而又分散的非结构化信息,用户在这些非结构化的短文本中表达的观点也呈现出碎片化的特点。为了能够全面准确地了解用户的观点,本文提出了用户主观模型的概念,将用户产生内容中所关注的话题以及用户针对话题的观点组合在一起进行建模,并将观点按照话题的不同方面进行整合集成,在此基础上提出一种新的可扩展观点表示方法,将同一话题的观点表示为在一个可扩展的情感值空间的分布,这种表示能够表达出用户多视角下更详细的观点信息。?用户交互行为分析:作为用户主观模型的直接应用,本文对用户在社交媒体中信息传播行为的主观动机进行建模分析。针对Twitter中用户转发信息的三种常见动机,即对内容的兴趣、社交的需要、对流行的兴趣三种动机通过用户主观模型进行定量分析。使用三个主观相似性计算方法进行度量。通过对转发行为的分析发现,三种主观相似性与转发行为都具有相关性,能够作为转发行为预测的有效特征,并能显著提高现有预测模型的性能。在对以上四个观点分析与应用研究任务中,本文侧重于使用通用的鲁棒性好的无监督或弱监督方法,因此本文的方法适用于话题广泛的大量观点的自动分析,这也使我们的方法区别于针对特定领域精心进行特征设计并使用大量标注数据进行充分训练的有监督机器学习方法,这些方法转换到新领域就会变得性能下降,领域适应性差。本文尽可能使用现有的无需标注资源,比如一些现成的词典资源,可以为观点分析各种任务提供间接训练指导。基于这种思路本文的方法显示出良好的通用性并达到一定的评测性能,能够在多个研究领域(比如商业智能和社会学研究)得到应用。