论文部分内容阅读
由于Internet技术与应用在过去十几年时间中快速发展,互联网已经成为人们最重要的信息来源之一。互联网改变了人类的生活习惯,也创造了新的商业模式和经济行为方式。用户创造内容、分享内容的网络信息模式频繁出现并且普及起来,越来越多的用户通过浏览大量的网络评论来了解其他用户对商品和服务的评价,以便能够做出可靠决策,但是随着网络评论数量的飞速增长,使得信息量剧增,面对因特网上海量的良莠不齐的信息和数据,用户需要耗费大量的时间与精力去甄别其间的虚实,在海量信息中快速准确获得对用户有用的信息变得非常困难,另外,制造商和生产商也希望能通过了解用户对产品和服务的评价,从而改进和提升自己产品和服务的竞争力。因此,迫切需要一种技术能够使得用户更快速准确的获得产品评价信息,能够让生产商和制造商得到更有效的用户反馈,情感分析便是在这种背景下催生出来的以有效获取网络评论信息的非结构化信息挖掘技术,主要研究针对评价对象的情感倾向。本文首先对情感分析技术的国内外研究现状进行了回顾,介绍了情感分析技术中的关键步骤及主要算法,对各个算法进行了分析。情感分析被看做是一种特殊的文本分类问题,判断针对评价对象的褒贬分类。在取得较好的研究成果中,学者们采用支持向量机,最大熵,条件随机域等机器学习方法对网络评价进行情感分析,以上这些方法都是以耗时耗力的标注大量高质量训练集为代价的,为了能够有效利用大量容易获取的未标记自由文本,并成功把这些文本的隐含信息引入到标注样本中来提高分类器的分类性能,本文采用了半监督学习方法中的直推式向量机算法,鉴于半监督学习方法中的一些缺点,在已标注文本数量较少的情况下,直推式向量机会错误地估计数据的分布情况,从而降低分类的正确性,本文引入了主动学习的思想,提出了一个基于主动学习策略的TSVM分类算法,在学习过程中,对于最不确定的未标注样本进行人工标注,以其能够减少分类器的迭代次数,并提高分类器的分类性能。最后本文设计了一个基于句子粒度的中文网络评论情感分析系统,用SVM和本文提出的基于主动学习策略的TSVM两种学习模型对分类器进行训练,通过测试表明了该算法在情感分析中的有效性和可行性。