基于句子情感权值合成算法的篇章情感分析

来源 :太原理工大学 | 被引量 : 8次 | 上传用户:ming2331
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,越来越多的人通过微博、论坛、朋友圈等网络社区发表自己对当前一些热点事件的看法,消费者也频繁地通过网络发表自己对一些商品的意见,这些包含用户主观情感的评论性文本直接反映了用户的真实想法,因而对其进行有效的分析具有巨大的社会和商业价值。人工处理规模庞大的网络文本数据需要耗费巨大的人力物力,而借助高性能的计算机技术来处理庞大的网络文本可以大大增加效率,通过计算机对文本进行情感分析可以快速有效地提取出其中包含的有用信息。传统的文本情感分析主要针对词、短语、句子等进行研究,而对于篇幅较长的文本所做研究相对匮乏,而且对汉语中多种特殊的复杂句式结构缺乏足够有效的分析,所以本文就将篇幅较长的篇章级文本作为主要研究对象,并着重分析各种中文复杂句式,最终提出了一种基于句子情感权值合成算法的文本情感分析方法,对篇幅较长的中文文本能够进行有效的情感分析。研究中主要进行了以下工作:首先,词语的良好识别是进行后续研究的关键。研究中,为了更好的识别各种相关词语,在已有资源的基础上,构建了情感词典、关联词表、否定词表、总结词表、程度副词表等,在分词时融入构建好的各种词典以提高分词精度。其次,对传统的朴素贝叶斯文本分类算法进行了详细的分析,并对其进行了一定程度的改进,将改进后的算法应用于简单句的情感分析,并与原算法进行实验对比。再次,充分分析了汉语中多种复杂句式的特殊句式结构,复杂句中往往会出现多种语义共现的情况,利用传统的文本分类方法难以较好的分析复杂句的情感,所以根据关联词、否定词、情感词的不同组合规律,为复杂句式的情感分析设计了相应的情感分析规则。最后,在分析篇幅较长的中文文本时,首先将整篇文本细化为句子的集合,对简单句和复杂句分别采取相应的情感分析方法。在得到每个句子的情感之后,根据句子中的一些影响句子情感的特殊因素,比如程度副词、句子类型、句子位置等,为每个句子赋予相应的情感权值。在得到所有句子的情感权值之后,依据句子情感权值合成算法计算得出整篇文本的最终情感。在利用公开数据集所展开的实验中,改进后的朴素贝叶斯算法相对于改进前获得了更高的分析精度;利用新提出的情感分析规则对复杂句式进行情感分析,要比传统的文本分类算法拥有更好的分析效果;利用新提出的句子情感权值合成算法对三种不同类别的文本进行情感倾向性分析时,平均准确率分别达到了80.6%、81.4%、74.6%,平均召回率分别达到了80.1%、82%、77.2%,而利用传统的文本分类算法对其进行情感分析时,平均准确率分别为73.4%、76.2%、70.5%,平均召回率分别为76.1%、78.3%、72.3%。实验结果证明,利用句子情感权值合成算法可以较好地分析篇章级文本的情感倾向性,并且比传统的文本分类算法拥有更高的效率。
其他文献
目的通过研究快速康复外科(fast track surgery,FTS)在食管裂孔疝围手术期的应用,观察FTS对患者术后炎症反应、术后并发症以及住院天数的影响,探讨FTS在食管裂孔疝围手术期的安
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的了解儿科护士专业自我概念、心理健康状况,并分析其相关性。方法采用护理专业自我概念量表和症状自评量表对224名儿科护士进行调查。结果儿科护士专业自我概念量表总分为
网络时代下,许多人早已认识到被遗忘权的法律价值,但当它的实现会限缩言论自由空间时,争议甚至否定随之出现。虽然被遗忘权合法化过程中会遭遇不少障碍,但言论自由不应成为障
将房地产财富效应的部分传导机制模型化。利用这一模型,发现房价上涨对于有房者和无房者的影响是截然相反的,房价上涨使财富从无房者向有房者集聚,使无房者的福利水平下降。
后危机时代中国房价的波动引起了广泛关注,如何利用以货币政策为代表的宏观调控抑制高房价透支未来经济发展的程度,成为当前管理层高度关注的焦点。本文建立了新凯恩斯模型框