论文部分内容阅读
随着社交网络的普及和快速发展,其中微博、网络评论、社交论坛是人们在互联网上活跃的主要平台,互联网中无时无刻都发生着人的社交行为,产生了海量的短文本信息,政府越来越注重对社会舆情的监控,企业越来越注重对于产品效果的反馈,校园越来越注重学生的日常生活和心理安全建设,这些信息都可以从社交网络中获取。所以分析这些海量数据中的情感倾向,才能为政府、企业、学校做出更好的决策支持。本文针对这些问题进行研究提出了一个基于Word2Vec算法的短文本分类模型,主要工作总结如下:(1)本文深入研究了传统的文本分类研究中的特征提取方法:信息增益、TF-IDF、互信息来构造向量空间模型,将这些方法应用在34000条微博数据集上的情感分类准确率较低。短文本长度短,很难用一般的特征提取方法提取到很好的特征,因此本文采用了基于分布式语义表达的词向量模型来构建短文本的特征向量空间。(2)本文研究了基于分布式语义表达的词向量生成算法,采用Word2Vec算法训练一个包含44万词语向量的向量库,在此基础上结合N-Gram算法思想提出了词序列特征提取模型:通过向量库提取词语向量,计算短文本中每一个词语组合的特征向量,最后提取出基于词语序列的特征向量值。(3)本文使用了多种情感词典进行组合、筛选,基于词向量构造了一个包含约2.5万词语的情感词向量库,并且重点研究了对于情感词典的扩展和扩展后词典的性能。(4)本文通过抓取新浪微博2015年10月到12月的不同用户的微博内容构造一个实验数据集,同时使用NLPCC(自然语言处理与中文计算会议)2014年发布的标准数据集作为另一个实验数据集进行横向的比较。本文在这两个数据集上对比了基于词典的分类方法和本文提出的基于Word2Vec的短文本分类方法的分类效果,实验结果证明了本文提出方法的有效性。(5)实验结果表明,本文提出的方法可以很好的处理短文本情感倾向分析工作,但是本文没有对短文本表达的情感强度进行研究,情感表达的强度能够更好的诠释一个短文本包含的情绪,因此在接下来的工作中,需要对本文提出的方法在这一方面进行研究、改进。(6)基于本文提出的短文本情感分类方法,在两个领域中进行了应用开发。1、生态资源分配决策实验平台:研究资源分配的生态行为学过程中,资源分配者间的相互交流在一定程度上影响了他们的分配决策以及最终的资源分配结果,因此,本文在资源分配实验平台上,将提出的算法应用与资源分配者的交流模块,通过对分配者交流谈话中的情绪分析,给分配者进行决策支持,使得最终的资源分配结果更加合理。2、杭州情感地图:由于社交网络的快速发展,公安部门对于社会舆情的监控越显重要。因此,该应用通过爬虫获取微博、百度贴吧、杭州各大BBS论坛的信息,解析出发布人的发布内容的情感倾向和地点、时间信息,最终通过地图的形式动态的展现杭州市区域实时的居民情感变化。