社交网络中的短文本情感分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qzyss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感分析(Sentiment Analysis),又被称作观点挖掘或观点分析。情感分析的目标是通过数据挖掘得出文本的情感极性,以及分析判断文本的情感走向。情感分析在互联网各个应用场景中发挥着重要的作用。在基于社交网络的研究课题中,微博情感分析(Microblog Sentiment Analysis)是一个重要的研究课题。微博(Microblog)是社交媒体中经典的短文本来源。微博平台(如推特、新浪微博)每天都能够收集大量的微博信息,其中包含的信息资源具有较大的挖掘价值。本文从半监督学习和迁移学习两个角度入手提出了两个新的分析模型,以期进一步提高短文本情感分析任务的分析质量。首先,我们针对社交媒体中少量人工情感标注和大量原始短文本这一情境,提出了一种基于图的半监督学习方法用于短文本情感分析。具体来说,我们使用“微博-微博”关系图构建了一个基于图的半监督学习分类器。我们在“微博-微博”关系图中同时结合了社交网络关系和文本相似度关系。本文提出的半监督学习模型通过“微博-微博”关系图,为有人工情感标注的短文本和原始未标注的短文本建立了联系。我们在两个真实推特语料库上进行了实验,实验结果表明本文提出的半监督学习模型是有效的。其次,短文本情感分析任务常常关注于某一特定领域(Domain),收集特定领域的人工情感标注是尤为困难且耗时的。另外,特定领域拥有其特定的词汇表,这些特定领域词汇的情感信息是不易发现的。为了解决这一问题,本文提出了一个有效的迁移学习模型用于短文本情感分析。模型的提出基于以下事实:情感词典所包含的领域无关情感知识可以通过模型迁移到特定领域的情感分析任务上。具体来说,我们利用情感词典这一领域无关知识源和“词汇-词汇”关系图,针对特定领域的短文本情感分析任务,构建了一个基于图的迁移学习模型。我们同样在两个真实推特语料库上进行了实验,实验结果表明本文提出的迁移学习模型能够为短文本情感分析任务带来有效的效果提升。
其他文献
互联网的发展与竞争愈来愈激烈,不少主流网站纷纷将个性化推荐作为争夺用户和吸引眼球的前沿阵地。相比于百花齐放蓬勃发展的电子商务,新闻作为传统的互联网信息服务,其个性化服
现代社会高节奏、高要求的工作环境决定了现在人们在工作之余还需要进行其他方面的学习,因此兴起了很多有针对性的技能培训。在参加这类培训时,其学习时间安排较灵活,而培训
数据挖掘是一种可以在数据库上挖掘有用信息的技术,这些信息被称为知识,所以数据挖掘又称知识发现。从大量数据中挖掘出的知识可用于决策支持、数据分析等领域,随着数据库的
主动服务是一种全新的、面向用户的Web服务定制方式,它能够自动适应用户的服务需求,在Internet上为用户发现,定制和运行能够满足用户需求的构件程序。构件技术的发展为实现主
有限单元法是现代工程设计和分析的重要数值方法之一,用有限单元法结构分析软件对工程问题进行数值分析己成为大型工程设计必须的环节。但要对这些大型或超大型复杂结构进行有
随着信息化的发展和企业规模的不断扩大,企业内部的信息管理也越来越复杂,敏感度不同的信息需要不同级别的保护,工作流技术的广泛应用更增加了数据安全访问控制的复杂性。在
当前国际上使用的汉字包括简体字和繁体字两种形式,大陆和新加坡使用简体字,台湾、香港、澳门和部分海外华人使用繁体字。随着华人圈的交流日渐频繁,这种汉字的差异给交流带
CRM(Customer Relationship Management,客户关系管理)系统是在网络经济时代提升企业竞争能力,实现并提高企业价值的必然要求。本文的选题,目的在于建立一个高效CRM系统,使电信企
WMN(Wireless Mesh Network,无线网状网或无线网格网)被称为“因特网的无线版本”,是一种具有自组织和自愈特点的新型无线通信网络。它是一种完全适用于民用通信的无线多跳网
ZigBee技术基于IEEE802.15.4协议,特别适合于数据吞吐量小、网络建设投资少、网络安全要求较高、不便频繁更换电池或充电的场合。预计将在消费类电子设备、智能家居、工业控