随机森林算法对文本情感分析的应用与R软件实现

被引量 : 0次 | 上传用户:huaweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的文本数据与日俱增。本文旨在阐述如何通过随机森林算法和R软件实现文本情感分析,为学者提供方法学参考。方法人工标注1200例文本情感类别,然后用"RWordseg"包对文本进行中文分词,用词频-逆向文件频率量化特征词权重。用卡方法进行特征词选择。按照不同参数组合,用"randonForest"包对数据进行建模,并用准确率、查准率、查全率和F1得分来评估模型性能,用统计量FF比较模型优劣。结果 1149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,其中模型16最优。特征选择后的模型2的运行时间(5秒)远少于模型5(535秒)。最优模型有190个特征词,mtry=13,ntree=2500,准确率0.60,95%置信区间(0.53,0.68)。中立情感的查全率相对较高(0.79),正向情感的查准率相对较高(0.66)。影响准确率的主要原因有样本量大小、特征词选择、算法选择和参数调整。R软件能实现情感分析。
其他文献
"误差理论与测量平差基础"是测绘工程专业的核心基础课程,是其他测绘工程专业课程的基础。为保证好的教学质量,并为学生学习其他专业课程打好基础,本文从课程教学面临的问题
“美丽中国”是全体中华儿女所追求的美好生活愿景,是新时代背景下实现中华民族伟大复兴的重要内容。现今,我国在美丽中国建设进程中,依然面临着诸多的问题与挑战。尤其是生态环境问题日益凸显,生态与其它领域的发展严重失衡,这已严重威胁到人民的日常生活,阻碍美丽中国建设的前进。从哲学角度看,这无疑是人与自然、社会之间矛盾尖锐的结果。马克思主义自然观作为马克思主义理论的组成部分,科学的论述了人与自然以及社会的关
‘芋香冬瓜’是从台湾引进的冬瓜新品种,肉质鲜美。文章从品种特性、播种育苗、田间管理、病虫害防治及适时采收等方面,阐述‘芋香冬瓜’主要栽培技术。
哈尔滨3维地理信息系统建设在国内起步较早,是基于Citymaker 3维技术开发而成的。在系统建设过程中,我们逐步摸索出适合哈尔滨城市建设的3维地理信息系统模式。本文简要介绍
来信柯岩老师:您是我们年轻人熟悉和喜爱的诗人和作家。您的诗篇《周总理,你在哪里?》、长篇小说《寻找回来的世界》以及据此改编的电视剧,还有前些时候新出的长篇小说《CA俱
会议
"子莲-泥鳅"和"芋-泥鳅"种养结合模式是2012年以来在杭州市余杭区兴起的新型提质增效、立体种养模式。文章对该模式的子莲种植技术、红芽芋种植技术、泥鳅养殖技术进行介绍,并对
复杂校园路网下的最优路径计算,直接影响校车站点设置、线路设置等。以韶关学院校园观光车的行车路线为研究对象,利用迪克斯查标号法(Dijkstra)最短路径算法为基础,采用地理
20世纪的研究者认为,元代的文学批评理论包括诗学没有成就,原因是元代学术环境不好,元代尚武轻文,学术不昌明,没有文化。现在看来,这样的认识有很大偏差。元代诗学发展的学术
<正>前不久,永嘉县林业局换了新的办公地点,曾经的旧址如今已变得异常空旷。轻轻推开林政科的大门,他的书籍,他的工作笔记,他的荣誉证书,还有他曾因难忍疼痛备着的药物依旧摆