基于Hadoop的中文微博主观情感分类的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zzdlily_4000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是互联网快速发展的一个产物,以其快速、随意的特点吸引了大量的用户。微博用户热衷于在上面发布自己的状态及观点。随着微博的不断发展,用户量不断增长,截止至2013年,仅新浪微博的用户量便已达到了5.03亿。如此巨大的用户量导致每天微博上新产生的信息不计其数。这些微博信息通常都具有强烈的感情色彩,分析这些信息能够获得很多隐藏的知识、数据,能为生活、工作带来很大的帮助。文本情感分类的研究与应用目前在国内外信息研究与应用领域正在得到大家的普遍关注,成为一个热点的信息研究、挖掘与应用的课题。互联网的发展带动了大数据时代的到来。大数据一般指一个公司或企业创造的大量非结构化和半结构化数据。微博信息便是典型的大数据之一。然而,由于传统的关系型数据库的不足,在它上面分析大数据将会花费过多的时间和金钱。云计算的出现弥补了这些不足,满足了大数据的分析需求。云计算将作业的计算任务分布到了大量的分布式计算机上,拥有强大的计算处理能力。在现今的研究开发过程中,大数据的分析通常都与云计算联系在一起。本文在研究分析了现有的文本情感分类技术的基础上,结合微博文本的特点,提出了一个基于Hadoop的中文微博主观情感分类系统。首先,根据微博信息的特点,建立了适用于中文微博情感分类的情感字典;其次,根据Map/Reduce编程模型,提出了基于Hadoop的分布式朴素贝叶斯分类算法,用以处理大规模的新浪微博数据;然后,针对包含最新网络词汇的信息,辅助以基于情感字典的情感分类法来进行情感分类;最后,选择适当的融合算法来结合本文两个算法的结果,以得到最终的分类结果。本文将该系统应用于新浪微博,实验结果表明,本文提出的方法能够很好地适用于微博情感分类,达到了较理想的分类效果,对处理海量的中文微博信息具有可行性。
其他文献
“普通教育有高考,职业教育有大赛”。技能大赛是各个职业学校展示自己的管理水平、师资力量、技能训练水平的一个重要平台。农村职业学校是职业教育的重要组成部分,是实施职
目的评价胸降主动脉夹层合并冠心病的患者行主动脉腔内隔绝术联合经皮冠状动脉介入治疗(PCI)的远期疗效。方法收集2002年4月至2013年10月完成的40例主动脉腔内隔绝术联合PCI
探讨国家战略高技术定义及特征,概述了战略高技术及产业已成为国际竞争的焦点,最后凝炼出了发达国家发展战略高技术及产业的五条成功经验,即政府高度重视、进行技术预测、加
目的:观察恩师所拟之三三二陈汤加减治疗风痰阻肺型咳嗽变异性哮喘的临床疗效,总结咳嗽的发展源流和《黄帝内经》、《伤寒杂病论》对咳嗽的相关论治,为中医治疗咳嗽变异性哮喘
干扰素(IFN)是由多种细胞受病毒感染或其他生物诱导剂刺激而产生的天然蛋白质,主要功能为抗病毒增殖、调节免疫反应和激活免疫细胞等。本研究克隆并测序了猪干扰素(PoIFN)α
随着电子设备的普及和软件技术的飞速发展,园林设计师的工作方式由纯手绘逐渐发展为手绘与软件相结合的方式进行。近年来,园林设计行业逐渐与虚拟现实技术相结合。本研究立足
育儿习俗指的是生活在一定时空中的人们在育儿活动中相习相沿的共同趋向或习惯,它包括人们的育儿观念、育儿方式、育儿风俗、育儿价值等方面。文化特性是各个民族独创性的生
对众多的身高预测方法 ,根据其预测的原理和理论依据进行分类。对各类预测方法进行了初步的分析与评价 ,指出了不同预测法的适用范围。随着社会环境的变化 ,有的预测方法已失
文章运用Delphi法建立了国际工程项目政治风险评价指标体系,基于层次分析法确定了评价指标的权重,然后构建了国际工程项目政治风险模糊综合评价模型,并通过工程项目实例对评
本文立足于初中思想品德课,通过理论研究和亲身实践等多种方式,从学科角度出发,重在实践方法上的研究,充分发挥思想品德课教师的优势,对初中生自我责任意识的现状和成因等进