隐朴素贝叶斯在情感分类中的应用研究

来源 :南华大学 | 被引量 : 1次 | 上传用户:mahuan616520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们对互联网的热爱也日渐增强。在互联网诞生与发展的过程中伴随着各种平台产生,用户也通过互联网平台来抒发自己的内心想法与意见。随着用户越来越多,在这些数据当中涉及了社会、商品等各种信息,同时这些信息也形成了庞大的数据库。在数据库形成的过程中伴随着也带来了自然语言处理领域的舆情问题。因此,需要对这些数据实施处理与监测。在自然语言处理领域研究的学者们为了实现这一目标,近些年来不断的对其探索。为了对庞大的信息进行情感的研究,此领域的研究学者们采用词典、统计、机器学习的方法对其处理,最终实现自动化文本处理方法。在之前学者们的研究成果基础之上,本文采用了改进的TF-IDF与隐朴素贝叶斯的结合对文本情感分类,与改进的TF-IDF与朴素贝叶斯的结合以及特征加权融合的朴素贝叶斯情感分类算法进行了比较。然后对情感词典的扩充进行了研究,采用了基word2vec方法对词典进行扩充,然后使用隐朴素贝叶斯作为分类器进行情感分类。本文使用了书籍、电脑、酒店评论数据作为实验研究的对象,通过对数据的分析与处理进行了情感分类与词典扩展的相关工作。本文的主要研究内容如下:在本文的情感分类相关技术的研究下,对于文本情感分类的流程,使用模型融合的办法。对文本预处理,使用Python中jieba分词工具进行分词,去除停用词等等。对特征提取和情感分类模型进行了研究,其中包括互信息、CHI统计、TF-IDF等,详细的研究了改进的TF-IDF算法特征提取过程。情感分类算法研究了隐朴素贝叶斯的分类过程的使用,分析了此情感分类算法的优点。基于改进的TF-IDF与隐朴素贝叶斯算法结合的情感分类。使用改进的TF-IDF算法对文本特征提取,把文本改变成向量化,使用隐朴素贝叶斯分类算法作为分类器对文本情感分类。使用评论数据进行试验,并使用评价指标对试验结果进行分析,与上述两种方法进行对比,试验结果优于其他两种方法。情感词典的扩充。在自然语言处理领域的情感分类或者情感分析的方法都包含着基于情感词典。目前,具有代表性的情感词典包括:知网情感词典(Hownet)、台湾大学词典(NTUSD)以及大连理工大学中文情感词汇本体库(无辅助情感分类)等等。但是,网络中的新词可能会被忽略,本文使用了word2vec算法进行词典的扩充,对文本的内容与词典相匹配选出情感词,对网络新词使用word2vec的方法进计算与词语之间的关系,最后使用隐朴素贝叶斯作为分类器对文本情感分类,实验证明加入了情感词典使情感分类效果更好。
其他文献
中国革命和建设的伟大实践证明:只有马克思主义才能救中国,只有马克思主义才能发展中国。要坚持和发展马克思主义,必须对青年进行卓有成效的马克思主义理论教育,高校应成为培
管锡华的《汉语古籍校勘学》是一部非常有价值的校勘学专著,对校勘学的发展做出了突出的贡献。本文对它的完善的校勘学系统、丰富细致的内容和例证、方便的实用性、特色的专
“学生创造性思维能力的提高是教育的最终目标”。培养思维能力、创新能力的重要性已被提到了从未有过的高度。想象是创新思维中最具活力的因素之一,正是有了想象,人类才能够
先秦儒家"修养"美育思想强调内修,以"仁""义""礼""智""信""情"的内容,通过"诚""静""壹""正""独"的方法,实现生"和气"成"气象",产生感应影响人们的"乐仁"行为,最终实现圣人不
<正>当我们谈及"法律面前人人平等"时,"人人平等"就被当成实操层面的概念,这个标准应该毋庸置疑。但我们谈及"人人平等是人类社会追求的理想"时,"人人平等"就被一些人看做放
<正>笔者在研究三角形重心的过程中意外发现一个关于三角形重心和布洛卡角的新性质.现整理出来供大家参考.为便于行文,先约定下面一些几何量.如图1,M为△ABC的重心,D、E、F为
利用机载激光雷达扫描(LightDetectionandRanging,LiDAR)技术所得点云进行震后倒塌建筑物提取时,树木与倒塌建筑物的点云特征十分相似,较难区分。为了快速准确获取震后房屋建筑物
选用对苯二甲酸二辛酯(DOTP)、偏苯三酸三异辛酯(TOTM)、柠檬酸三丁酯(TBC)、乙酰柠檬酸三丁酯(ATBC)、植物基增塑剂(JEG3-33)和聚酯六种环保增塑剂制备软质聚氯乙烯(PVC),对