论文部分内容阅读
随着互联网的迅速发展,人们对互联网的热爱也日渐增强。在互联网诞生与发展的过程中伴随着各种平台产生,用户也通过互联网平台来抒发自己的内心想法与意见。随着用户越来越多,在这些数据当中涉及了社会、商品等各种信息,同时这些信息也形成了庞大的数据库。在数据库形成的过程中伴随着也带来了自然语言处理领域的舆情问题。因此,需要对这些数据实施处理与监测。在自然语言处理领域研究的学者们为了实现这一目标,近些年来不断的对其探索。为了对庞大的信息进行情感的研究,此领域的研究学者们采用词典、统计、机器学习的方法对其处理,最终实现自动化文本处理方法。在之前学者们的研究成果基础之上,本文采用了改进的TF-IDF与隐朴素贝叶斯的结合对文本情感分类,与改进的TF-IDF与朴素贝叶斯的结合以及特征加权融合的朴素贝叶斯情感分类算法进行了比较。然后对情感词典的扩充进行了研究,采用了基word2vec方法对词典进行扩充,然后使用隐朴素贝叶斯作为分类器进行情感分类。本文使用了书籍、电脑、酒店评论数据作为实验研究的对象,通过对数据的分析与处理进行了情感分类与词典扩展的相关工作。本文的主要研究内容如下:在本文的情感分类相关技术的研究下,对于文本情感分类的流程,使用模型融合的办法。对文本预处理,使用Python中jieba分词工具进行分词,去除停用词等等。对特征提取和情感分类模型进行了研究,其中包括互信息、CHI统计、TF-IDF等,详细的研究了改进的TF-IDF算法特征提取过程。情感分类算法研究了隐朴素贝叶斯的分类过程的使用,分析了此情感分类算法的优点。基于改进的TF-IDF与隐朴素贝叶斯算法结合的情感分类。使用改进的TF-IDF算法对文本特征提取,把文本改变成向量化,使用隐朴素贝叶斯分类算法作为分类器对文本情感分类。使用评论数据进行试验,并使用评价指标对试验结果进行分析,与上述两种方法进行对比,试验结果优于其他两种方法。情感词典的扩充。在自然语言处理领域的情感分类或者情感分析的方法都包含着基于情感词典。目前,具有代表性的情感词典包括:知网情感词典(Hownet)、台湾大学词典(NTUSD)以及大连理工大学中文情感词汇本体库(无辅助情感分类)等等。但是,网络中的新词可能会被忽略,本文使用了word2vec算法进行词典的扩充,对文本的内容与词典相匹配选出情感词,对网络新词使用word2vec的方法进计算与词语之间的关系,最后使用隐朴素贝叶斯作为分类器对文本情感分类,实验证明加入了情感词典使情感分类效果更好。