基于半监督学习方法的情感分析研究

被引量 : 5次 | 上传用户:woai2010ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Internet技术与应用在过去十几年时间中快速发展,互联网已经成为人们最重要的信息来源之一。互联网改变了人类的生活习惯,也创造了新的商业模式和经济行为方式。用户创造内容、分享内容的网络信息模式频繁出现并且普及起来,越来越多的用户通过浏览大量的网络评论来了解其他用户对商品和服务的评价,以便能够做出可靠决策,但是随着网络评论数量的飞速增长,使得信息量剧增,面对因特网上海量的良莠不齐的信息和数据,用户需要耗费大量的时间与精力去甄别其间的虚实,在海量信息中快速准确获得对用户有用的信息变得非常困难,另外,制造商和生产商也希望能通过了解用户对产品和服务的评价,从而改进和提升自己产品和服务的竞争力。因此,迫切需要一种技术能够使得用户更快速准确的获得产品评价信息,能够让生产商和制造商得到更有效的用户反馈,情感分析便是在这种背景下催生出来的以有效获取网络评论信息的非结构化信息挖掘技术,主要研究针对评价对象的情感倾向。本文首先对情感分析技术的国内外研究现状进行了回顾,介绍了情感分析技术中的关键步骤及主要算法,对各个算法进行了分析。情感分析被看做是一种特殊的文本分类问题,判断针对评价对象的褒贬分类。在取得较好的研究成果中,学者们采用支持向量机,最大熵,条件随机域等机器学习方法对网络评价进行情感分析,以上这些方法都是以耗时耗力的标注大量高质量训练集为代价的,为了能够有效利用大量容易获取的未标记自由文本,并成功把这些文本的隐含信息引入到标注样本中来提高分类器的分类性能,本文采用了半监督学习方法中的直推式向量机算法,鉴于半监督学习方法中的一些缺点,在已标注文本数量较少的情况下,直推式向量机会错误地估计数据的分布情况,从而降低分类的正确性,本文引入了主动学习的思想,提出了一个基于主动学习策略的TSVM分类算法,在学习过程中,对于最不确定的未标注样本进行人工标注,以其能够减少分类器的迭代次数,并提高分类器的分类性能。最后本文设计了一个基于句子粒度的中文网络评论情感分析系统,用SVM和本文提出的基于主动学习策略的TSVM两种学习模型对分类器进行训练,通过测试表明了该算法在情感分析中的有效性和可行性。
其他文献
中低收入阶层等困难群体的住房问题在各个国家都存在,西方国家解决社会低收入家庭的住房问题已经经历了长时间的发展与探索,然而,我国尚处于社会主义初级阶段,生产力发展水平
贾平凹的小说中存在着丰富的意象。在他的早期作品中,月亮、草木、山石都是经常出现的自然景物。月亮往往象征了女性的柔美,而山石则象征着男性的厚实和古朴。这些自然景物由于
新形势下做好信访工作要树立“大稳定”工作理念.动员全社会各个部门和广大党员干部积极参与,用群众工作统揽信访工作.形成“大信访”工作格局。一是要通过建立超前防范机制.从源
“刑事商业性私人参与”在我国实在法层面是个空概念,但法律研究应以问题为导向,而不应被概念画地为牢。如何丰富权利实现手段、扩大人权保障是我国刑事理论需要回应的核心问题
收益率的波动率是金融学中一个重要的概念,简单的来说就是收益率偏离其期望值的大小。资产收益率的波动率反映了市场不确定性的程度,同时,波动率也被看成是信息流的一种度量,
交通是人流、物流和信息流等实现空间流动和转移的重要载体,在社会经济发展中发挥着重要支撑作用。本文以辽宁省主体功能区战略规划为背景,通过交通优势度和交通通达度两个方向
自1974年职业倦怠成为术语以来,一直受到学界的关注,尤其是近几年,富士康事件、28岁白领猝死、公务员自杀等社会现象,让人们越来越关注职业倦怠问题。国有企业员工是具有中国
云计算是一种服务的交付和使用模式,能够将各种IT资源以服务的形式提供给用户按需使用。作为一种新兴的商业计算模型,云计算极有可能为IT行业带来一次新的变革。因此,如何构
二十世纪八十年代左右建设的住宅区广泛分布在我国的各个城市中,由于受到社会经济条件的制约和影响,八十年代建设的住宅在我国当前的住房体系中依然扮演者的重要角色,而这部
2008年爆发的美国金融危机,给世界各国经济的发展带来了重创,美国为了转移由于金融危机带来的损失而采取量化宽松的政策,通过美元大幅贬值企图将经济衰退的影响转移到其他国