社交媒体中观点信息分析与应用

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:war_and
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的日益普及,互联网用户越来越习惯于在社交媒体中评论话题、表达观点。社交媒体用户规模庞大,观点涉及话题广泛,使其成为包含大量针对流行话题的用户观点的宝贵资源库。然而用户表达观点的方式多种多样,使得社会媒体中的观点文本呈现出碎片化、噪音多、非结构化等特征。因此,在社交媒体中通过人工方式分析总结用户观点非常困难,如何借助计算的手段自动地分析并总结出社交媒体全体用户的观点信息成为一个重要挑战。本文主要研究社交媒体用户观点的自动分析问题(包括观点挖掘和整合集成),希望能对用户在社交媒体上就所关注话题发表的大量观点进行建模,并基于此模型进一步对社交媒体中用户行为进行分析。为了对问题进行系统地研究,本文将问题分解为观点分析与基于观点的行为分析,其中观点分析又由情感知识的抽取、观点文本情感极性分类、用户观点集成三部分组成。本文的主要贡献如下:?中文情感词典的抽取和构建:目前常见的情感词典基本都是英文词典,这些词典在英文观点文本识别、极性分类等任务中起到了重要作用,是进行观点分析的基础。中文情感词典抽取和构建方法研究相对较少,还没有形成比较全面可靠的情感词典。靠人工标注形成的情感词典对时间和人力要求较高,但是词语覆盖度偏低,因此需要研究自动构建情感词典的方法。本文根据不同语言间表达情感知识的词汇间对应性,使用How Net语义知识库转化英文情感词典的情感知识,抽取对应的中文情感词汇并计算情感极性值,自动构建了中文情感词典Senti How Net。为了提高词典的覆盖度以及领域适应性,本文分析验证了基于语料资源中连词语言规则和上下文统计特征的情感词典扩展方法,并提出了混合方法对Senti How Net在领域语料内进行扩展。使用本文方法得到的中文情感词典可以自动构建无需人工标注,与现有中文情感词典相比,覆盖度和领域适应性更好。?基于特征空间划分的情感极性分类:对于情感极性分类问题来说,不同情感词表达情感的作用范围、使用语境存在一定的差别,有些词语能在不同领域和语境中表达不变的情感极性,而有些词语只有在特定的领域和语境中才能表达特定的情感极性。因此,本文提出了将特征空间划分为领域独立和领域依赖两部分的情感极性分类方法,该方法分别在两部分特征空间上训练分类器,然后将两个分类器组合在一个框架中形成一个更强的情感极性分类器,框架从现成的成语词典和远程监督数据资源开始,使用自举式迭代机器学习方法,可以在无需标注数据进行训练情况下达到有监督机器学习方法的性能。?用户观点的集成建模:社交媒体中用户产生的内容往往是短小而又分散的非结构化信息,用户在这些非结构化的短文本中表达的观点也呈现出碎片化的特点。为了能够全面准确地了解用户的观点,本文提出了用户主观模型的概念,将用户产生内容中所关注的话题以及用户针对话题的观点组合在一起进行建模,并将观点按照话题的不同方面进行整合集成,在此基础上提出一种新的可扩展观点表示方法,将同一话题的观点表示为在一个可扩展的情感值空间的分布,这种表示能够表达出用户多视角下更详细的观点信息。?用户交互行为分析:作为用户主观模型的直接应用,本文对用户在社交媒体中信息传播行为的主观动机进行建模分析。针对Twitter中用户转发信息的三种常见动机,即对内容的兴趣、社交的需要、对流行的兴趣三种动机通过用户主观模型进行定量分析。使用三个主观相似性计算方法进行度量。通过对转发行为的分析发现,三种主观相似性与转发行为都具有相关性,能够作为转发行为预测的有效特征,并能显著提高现有预测模型的性能。在对以上四个观点分析与应用研究任务中,本文侧重于使用通用的鲁棒性好的无监督或弱监督方法,因此本文的方法适用于话题广泛的大量观点的自动分析,这也使我们的方法区别于针对特定领域精心进行特征设计并使用大量标注数据进行充分训练的有监督机器学习方法,这些方法转换到新领域就会变得性能下降,领域适应性差。本文尽可能使用现有的无需标注资源,比如一些现成的词典资源,可以为观点分析各种任务提供间接训练指导。基于这种思路本文的方法显示出良好的通用性并达到一定的评测性能,能够在多个研究领域(比如商业智能和社会学研究)得到应用。
其他文献
虎杖为蓼科植物虎杖(Polygonum cuspidarum Sieb.et Zucc.)的根茎,性味苦平,具有活血定痛、清热解毒等功效,现代药理研究表明虎杖及其提取物白藜芦醇对肝癌具有一定的拮抗作
论社会包容力李金现代社会的有效运行需要将各种各样的社会成员和社会行为有机地整合到社会的制度体系之中,一方面这是由于社会结构的分化和复杂化增强了社会成员的异质性,另一
<正>在98岁这个年纪,绝大多数人想到的,恐怕就是如何在晚年更安逸地享受生活了,可这其中,却绝对不包括澳大利亚人艾伦·斯图尔特。这位勤奋好学的老先生以他的实际行动向人们
改革开放前期,由于中国落后的经济基础,参与世界经济的交流与发展基本都是靠引进来,引进来是中国参与全球化的主要形式,但是随着中国经济技术发展水平的快速提高,这种微观层
分析医院挂号收费网络系统的管理和维护,提出了加强网络日常维修、规范网络管理制度和装配优质的软、硬件等措施,以确保医院挂号收费系统能够稳定、良好的运行。
近年来,我国稻田养鱼发展迅速。从稻田养鱼经营角度出发,结合当下稻田养鱼经营的一般现状,在适于稻田养鱼的区域,从稻田养鱼的商品开发、商品培育、产品利用、产品营销等方面
<正>中国古典诗歌的创作是一门高超的艺术,是融意境美、音乐美和形式美的和谐统一。所以,在中国诗歌的英译过程中要尽量保留诗歌的美感,不能遗失。翻译难,文学翻译更难,诗歌
2019年上半年,伊利、蒙牛营业总收入分别为450.71亿元、398.57亿元,同比分别增长12.84%、15.6%;净利润分别为37.98亿元、20.77亿元,同比分别增长9.51%、33%.伊利、蒙牛业绩增
<正>一、三毛成长时期的女性文学背景三毛成长的时代台湾战争已经结束,台湾内部已经相对稳定,土地改革完成之后,阶级矛盾日趋弱化,同时,台湾由家庭手工业发展起来的中小企业
<正>以《圣地亚哥》和《洛奇!洛奇!》两部美国体育文学作品为案例分析对象,对文化认同和阶级身份的视角理解新世纪美国体育文学呈现出的新变化。《圣地亚哥》讲述了一个平凡