基于Hadoop的微博用户情感分类研究与实现

被引量 : 0次 | 上传用户:zfk710867322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博等新型社交网络服务的发展与普及,人们借助此类媒介表达观点和情感变得更加灵活、自由、快速。因此,针对微博的情感分类也显得越来越重要,通过微博情感分类,了解用户对政策、产品、舆论热点等的反应,更好的对用户自身、企业、政府等提供决策支持具有重要的意义。在微博海量数据集上执行情感分类任务时,传统的情感分类算法的扩展性成为系统的瓶颈。因而,本文首先研究云计算平台-Hadoop的主要技术,分析了在Hadoop上实施情感分类的可行性。在此基础上,本文针对微博文本情感特点,通过自动构建和人工构建相结合的情感语料库,改进基于微博情感元素和语义的特征抽取算法,并采用Hadoop技术,设计了一种分布式、可扩展、自治的微博情感分类模型。针对该模型中的情感分类问题,设计并实现了基于Hadoop的朴素贝叶斯情感分类算法。测试结果表明,采用基于Hadoop的朴素贝叶斯情感分类模型对海量微博数据进行情感分类,具有良好的执行效率和较高的扩展性。
其他文献
目的:观察妊娠合并乙型肝炎病毒(HBV)感染母婴结局,提高对妊娠合并HBV感染孕妇管理的认识,加强对妊娠合并HBV感染的母婴监测,改善母婴结局。方法:选取2013年1月至2014年2月在广西医
以云烟87品种为材料,研究了不同揭膜培土方式对烤烟产质量的影响。结果表明:相同生态条件下,不同揭膜培土处理的烤烟产值量存在差异,打顶时揭膜培土加追肥处理的产值量最高;
bHLH是植物中的第二大类转录因子,在调控植物的生长发育和响应非生物胁迫中发挥着重要的作用。但目前关于bHLH家族转录因子在小麦中的研究相对较少。本研究以本实验室构建的小
SOI器件和电路具有良好的抗单粒子效应和瞬时辐照效应的性能,被广泛地应用于各种抗辐射领域。但是埋氧层的存在使得SOI技术的辐照效应更加复杂,如何提高其抗辐照性能成为研究重
论述了中国氮肥利用率的现状,介绍了在提高氮肥利用方法的研究中所取得的一些成果和进展。
中国歇后语是熟语的一种,它由前后两部分组成,前一部分起“引子”作用,像谜语的谜面,后一部分起“后衬”作用,像谜语的谜底。通常说出前半截,“歇”去后半截,就可以领会和猜
扩大内需的关键是扩大中等收入阶层在国民中的比重,但是中等收入阶层的扩大需要三个社会条件:城市化水平的提高、国民教育水平的提高、社会保障制度的全覆盖。只有三个条件具
目的:研究胎膜早破产妇胎盘中凋亡调节分子、氧化应激分子的表达及其与相关信号通路的关系。方法:选择2013年5月~2014年8月收治胎膜早破产妇和正常产妇作为研究对象,采集胎盘
20世纪90年代后,国际航空物流的增长速度几乎是客流的两倍。面对诱人的航空物流市场,我国空港纷纷加大物流基础设施的建设和投入,拓展物流业务。本文以系统论为基础,结合产业
为了解阿维菌素农药在柑橘园中使用的安全性,借助高效液相色谱检测技术,在田间试验和添加回收试验的基础上检测了阿维菌素在柑橘园中的消解动态。结果表明:当阿维菌素的添加