基于随机森林的文本分类并行化研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:dzluzd2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展导致了大量的数字媒体信息的产生,除了部分多媒体信息外,大部分内容是由文本文件组成,由于文档大部分类容是非结构化,普通计算机技术很难对其进行有效处理,文本分类是处理这些文本文件重要技术。本文主要研究基于随机森林的文本分类算法,随机森林算法是由决策树构建的组合算法,它的分类性能高,鲁棒性好,不会产生过拟合现象。但传统的随机森林算法也有一些不足之处:首先,随机森林算法对不平衡数据分类效果不理想,少数类的正确率要明显低于多数类。其次,随机森林算法中所有决策树的投票权重是一样的,没有充分发挥性能优秀决策树的作用也没有削弱性能不好的决策树对其影响。然后,随机森林算法在训练过程中需要建立多个分类器,运算时间比较长,一般的运行时间是其它算法运算时间的一倍以上。针对上面的不足,本文对随机森林算法进行了改进:(1)提出了不平衡数据随机森林改进算法,对训练样本的多数类进行欠取样对少数类进行有放回取样,使各样本数达到平衡,在不影响多数类的正确率的情况下提高少数类的分类效果。实验结果表明该算法对于非平衡的文本分类数据源有着良好的效果,使少数类的分类正确率得到明显提高。(2)提出了叶子节点加权随机森林算法,通过每个决策树的投票权重和进行分类。实验表明改进后的随机森林算法的准确率、召回率和F值都比普通随机森林算法、朴素贝叶斯算法、k近邻算法高,表明了本文改进的随机森林算法性能得到了提高。(3)提出使用Spark分布式框架对文本分类过程进行并行化运算,Spark是一个基于内存的用于处理、分析大数据的集群计算框架,它的主要特点有使用方便、快速、通用、可扩展和容错。实验结果表明spark平台上并行化运行文本分类过程的效率要比在单机上的高。
其他文献
“族群”概念是西方人类学研究社会实体的一种范畴分类法。任何族群都有着自己独特的族群共生和繁衍历史,并且都离不开建立在共同文化基础之上的族群认同和文化传承。族群认
四中全会《决定》中提出的关于构建和谐社会,将我国社会主义现代化建设的总布局由发展社会主义市场经济、社会主义民主政治和社会主义先进文化的三位一体,提升为包括社会主义和
王安忆的小说《长恨歌》被成功改编成电视剧,本文从影、像、声等角度分析,电视剧《长恨歌》是如何挖掘上海文化,取得商业成功的。
合成了一种新型含有稀土金属Er的上转光剂,此上转光剂在488nm可见光的激发下,可产生5个波长均小于387nm的上转换紫外发射峰。采用超声波分散的方法制备出了上转光剂掺杂的纳
<正> 一个有魅力的符合当今审美需求的舞台美术样式,来源于研读剧本、研究时代文化、研究现代观众的审美心理。 著名戏剧家曹禺先生的名剧《雷雨》几十年来在国内外戏剧舞台
期刊
<正> 一接触这位影圈红星,就会被他永远尊重人的态度而感动。他说自己不被人尊重的地方太多,从小又穷,刚开始演戏时,因为演的都是小角色,许多时候,他觉得人家很不尊重他,知道
采用自制的Fe/活性炭(Fe/AC)为催化剂,H2O2为氧化剂,组成多相类Fenton试剂催化降解罗丹明B染料废水。实验结果表明,在催化剂加入量为0.8 g/L,H2O2体积分数为0.3%,废水pH值为1
<正>诸城派古琴是山东省唯一的古琴流派。它形成于19世纪的山东诸城,并以诸城为中心,流传影响到了山东许多地区。在一百多年的发展过程中,诸城派古琴对于国内许多地区,甚至是
合成了一种新型含有稀土金属Er的上转光剂,此上转光剂在488nm可见光的激发下,产生了5个波长均小于387nm的上转换紫外发射峰。采用超声波分散的方法制备出了上转光剂掺杂纳米T
马克思和哈贝马斯都从主客体和主体间的双重关系角度来理解和把握交往发展的阶段性问题,但马克思从研究人类征服自然能力(生产力)和人类社会经济关系(生产关系)这一宏观角度