中文短文本跨领域情感分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liu0211yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的快速发展和微博、微信等的崛起,互联网上的短文本评论呈指数形式地增长,这些评论信息的背后蕴藏着巨大的经济和社会价值。传统的手工处理方法变得越来越困难,如何自动化地挖掘这些评论中的有用信息是自然语言处理领域的一个研究热点。文本情感分类技术应运而生,而跨领域情感分类由于不需要目标领域标记评论,实用性更强。情感分类作为一种主观的文本挖掘技术,其目的是判断评论者对某实体(产品、服务、事件等)的情感倾向和评价态度(正面或负面、推荐或不推荐等)。在对现有情感分类算法和相关技术进行了深入的研究基础上,提出了自己的跨领域情感分类算法。主要研究成果如下:(1)提出了基于情感敏感性词库(Sentiment Sensitive Thesaurus,SST)的跨领域情感分类算法。针对跨领域分类中原始领域()和目标领域()的领域独立性问题,提出构建SST词库,然后利用SST词库对原始领域和目标领域的评论集进行特征向量扩展,最后利用扩展之后的评论集进行分类器训练和分类预测。SST是在和的评论集上构建的,同时包含两类领域的特征。该算法利用支持向量机(SVM)对扩展之后的原始领域评论集进行分类器的训练,所得分类器对扩展之后的目标领域评论集进行分类预测。通过在酒店、电脑和书籍三个领域的数据集上进行9组实验表明,基于SST的跨领域分类算法分类效果较好。论文还对算法中的参数K和训练集大小对分类器分类效果的影响进行了实验探讨。(2)提出了投票集成的跨领域情感分类算法。利用集成学习的思想组合多个基分类器的结果来提升分类器分类效果。实验中采用了简单投票和加权投票两种方式,同样在酒店、电脑和书籍三个语料库上进行实验,结果表明投票集成分类算法分类效果明显优于单个基分类器的分类效果。(3)改进的Stacking集成分类算法。算法利用无监督的NTUSD情感词典分类方法,先对目标领域评论集进行分类,将其中部分情感极性较强的评论进行标记后加入到原始领域的评论集中,扩展训练集的构成,减小领域差异性。通过这种方式改进Stacking算法在跨领域分类中的实际应用效果。实验结果表明,Stacking集成分类算法能获得较好的分类效果,集成学习在跨领域情感分类中的应用具有研究价值。
其他文献
本文所研究的限量弧路由问题(Capacitated Arc Routing Problem,CARP)是一个经典的组合优化问题。它在现实中具有非常广泛的应用,如冬季撒盐路由、城市垃圾清理、信件投递等现
在高性能计算技术研究领域,机群系统具有良好的可扩展性与高性价比,受到越来越多的大学及科研机构的青睐。随着计算机集成技术的不断发展,多核技术开始大行其道,双核及四核的处理
计算机网络经历了网络互联、万维网,正在向大规模的分布式网格计算阶段发展。网格计算是把Internet上的计算资源、存储资源、服务资源等信息资源虚拟化并集中为可共享的服务
蒙古语词切分是蒙古语信息处理中的一个基础课题,具体内容是利用计算机自动识别出构成蒙古语词的词干与词缀。蒙古语的词干与词缀中包含大量的语法信息,利用这些信息有助于提
指纹被用来作为个人的身份识别与认证已经历了漫长的岁月。随着科学技术的不断发展,指纹识别技术已被人们公认为个人生物特征识别的物证之首。指纹识别一直是模式识别领域内热
随着Internet的高速发展,计算机技术也进入了以网络为中心的发展时期。网络服务正朝着高效率,低响应时间,高吞吐量的方向发展。人们对高效率和高可靠性的追求,给应用服务器带
随着互联网技术的发展,网络已经对人们表达自己和与他人互动的方式产生了巨大的影响。在线评论在今天的电子商务中起到至关重要的作用,消费者常常会通过网络查看商品或者商店
决策树算法在数据挖掘技术中有重要的作用,本文着重研究了决策树理论中的C4.5算法,针对其在当训练集样本包含大量的连续值属性时,算法将会效率低下的缺点,提出了利用划分熵取
在日常生活中,不规则物体是一类比较特殊的物体,它们没有固定的外观形状,人们可以很容易的指认这些物体,却总是不能准确地给出这些物体的统一定义,因此不规则物体模拟是计算
病历信息是医疗过程的记录,是医护人员进行医疗活动的客观依据。随着医院信息化的不断发展,病历正逐步从传统的纸质病历过渡到电子病历。电子病历具有超越纸质病历的许多优点