论文部分内容阅读
微博是互联网快速发展的一个产物,以其快速、随意的特点吸引了大量的用户。微博用户热衷于在上面发布自己的状态及观点。随着微博的不断发展,用户量不断增长,截止至2013年,仅新浪微博的用户量便已达到了5.03亿。如此巨大的用户量导致每天微博上新产生的信息不计其数。这些微博信息通常都具有强烈的感情色彩,分析这些信息能够获得很多隐藏的知识、数据,能为生活、工作带来很大的帮助。文本情感分类的研究与应用目前在国内外信息研究与应用领域正在得到大家的普遍关注,成为一个热点的信息研究、挖掘与应用的课题。互联网的发展带动了大数据时代的到来。大数据一般指一个公司或企业创造的大量非结构化和半结构化数据。微博信息便是典型的大数据之一。然而,由于传统的关系型数据库的不足,在它上面分析大数据将会花费过多的时间和金钱。云计算的出现弥补了这些不足,满足了大数据的分析需求。云计算将作业的计算任务分布到了大量的分布式计算机上,拥有强大的计算处理能力。在现今的研究开发过程中,大数据的分析通常都与云计算联系在一起。本文在研究分析了现有的文本情感分类技术的基础上,结合微博文本的特点,提出了一个基于Hadoop的中文微博主观情感分类系统。首先,根据微博信息的特点,建立了适用于中文微博情感分类的情感字典;其次,根据Map/Reduce编程模型,提出了基于Hadoop的分布式朴素贝叶斯分类算法,用以处理大规模的新浪微博数据;然后,针对包含最新网络词汇的信息,辅助以基于情感字典的情感分类法来进行情感分类;最后,选择适当的融合算法来结合本文两个算法的结果,以得到最终的分类结果。本文将该系统应用于新浪微博,实验结果表明,本文提出的方法能够很好地适用于微博情感分类,达到了较理想的分类效果,对处理海量的中文微博信息具有可行性。