基于Spark的微博话题情感分析系统的设计与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:shliukan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博话题几乎涵盖了所有生活中的事件,尤其热门话题的讨论最能提升微博用户的参与感,提高微博用户在平台上的社交意愿,增加微博用户与平台的亲密关系,从而形成一个重要的传播网络。微博话题吸引了众多对某事件感兴趣的人群,形成了一种新颖的信息传播形式和社交分布圈。因此对微博话题的情感分析对研究这一传播方式有很重要的意义。但随着网络时代的来临,网民数量急剧增长,微博博文量级呈指数增长,普通的单机串行的情感分类方法已经很难处理如此庞大的数据,且运行时间过慢,还可能有做成系统崩溃的可能性。基于此,本文将着重讨论Spark平台对大量微博数据进行高效处理等技术手段,通过探究、分析、实验等方法证实使用Spark平台进行混合学习的情感分类算法可以大幅减小串行下对该话题的情感分析时间,从而实现较快的情感分类。本文在传统文本预处理算法与情感分类算法的基础上,对基于Spark分布式平台的情感分类关键问题进行了研究,具体工作总结如下:1、首先收集用户对话题的情感分析的需求,并做调研分析,据此确定本系统的总体架构,包括数据库和web开发框架的选择,并在这个基础上确定系统的软件分层逻辑架构设计,最后完成对系统的总体功能设计。2、提出了基于改进的情感词典和BI-GRU的混合学习情感分析模型,在第一阶段利用基于改进的情感词典的情感分类方法来确定得分极高或极低的文本的倾向。第二阶段,基于深度学习的方法在情感倾向模糊的数据集上效果更好,再通过BI-GRU单元得出剩余文本的情感极性,并通过实验证明了本文提出的这种混合模型相较于其他现有模型有一定的效果提升。3、结合本文提出的情感分类算法的特性与Spark计算分布式计算平台的特点,实现了基于Spark平台的并行化的情感分类算法。利用NLPCC会议的数据集进行了并行情感分类的实验与分析,证实了Spark分布式平台处理大数据的可扩展性和优越性。4、最后在确定的系统架构的基础上,搭建了Hadoop和Spark等大数据分布式平台,并实现了以前后端分离的react+Spring Boot框架,将产生的文件部署到Nginx中的方式,实现了基于分层逻辑架构的软件系统,实现了本系统的各功能模块,包括情感分类、情感报告、用户管理和任务管理等功能模块。通过系统测试,验证了本系统的稳定性和高效性,且能满足用户的提出的需求,具备了初步的使用价值,并也具有很好的拓展价值。
其他文献
数字隐写和隐写分析是信息安全领域的重要分支。数字视频因其数据量大,能容纳密信数量多的特点,成为理想的隐写载体。作为最新的视频编码标准,H.265/HEVC已逐步应用在互联网
近年来我国经济快速发展,人民物质生活水平不断提高,房地产行业迎来了空前的繁荣,房地产营销中心作为楼盘售卖的“前哨岗”,地位日渐升高,在满足展示项目情况、进行意向洽谈、达成签约销售等实际功能需求的同时,还能够起到提升项目档次、增强消费欲望,引导消费者的作用,因此房地产营销中心设计的重要性不言而喻。过去二十年间受到文化断层以及地产行业外来资本注入的影响,不少地产商为迎合消费者而对国外风格样式盲目抄袭与
随着我国基础设施工程的持续发展及装配式预应力混凝土小箱梁标准图集的颁布,小箱梁已成为目前桥梁工程中应用最广泛的结构形式之一。装配式PC小箱梁具有结构刚度大、抗扭性能好、结构高度小、反拱较小等优点。小箱梁的内模板工程是箱梁施工中的关键技术问题,传统的内模板工艺存在内模施工繁琐,施工周期长,质量不易控制等问题。为解决传统小箱梁内模板在应用中存在的问题,基于聚苯乙烯泡沫塑料的广泛应用,项目组提出了采用聚
目前,可穿戴电子设备如健康监测手环、智能眼镜等被人们广泛使用。由于体积的限制,这些设备的持续供能问题制约了其进一步的发展。因此,探索一种新型的供能方式替代传统的电池供能,具有重要的研究价值。基于有机-无机压电复合材料的柔性压电能量收集器是一种能够高效地收集人体日常活动所产生的机械能并转换成电能的新能源技术,在可穿戴电子器件供能领域具有重要应用前景。有机-无机压电复合材料与传统压电陶瓷材料相比,具有
随着科学技术日新月异的进步和半导体技术的蓬勃发展,以碳化硅为代表的第三代半导体材料引起全球的广泛重视。单晶碳化硅用作外延生长衬底材料和大功率半导体器件,对其平坦化的质量提出了较高的要求。化学机械抛光(CMP)能使SiC表面达到较高的平整度,从而提高SiC基器件性能。通过研究SiC在NaClO体系、K_2S_2O_8体系、H_2O_2体系的动电位极化曲线,总结出如下的规律:在NaClO体系中,采用不
VTI介质的各向异性会导致波在不同传播方向上的传播时间及振幅差异。所以在微地震监测中,需要在确定震源位置和机理时重点考虑VTI介质的各向异性;且微地震监测中经常观察到位错和非双耦合震源,而在基于弹性波动方程的地震正演模拟中,震源通常是爆炸源,但实际介质中的震源是复杂的,不仅包括炸药震源,还包括直流震源和矩张量源,因此,在各向异性介质中如何模拟各种震源产生的波场是地震正演模拟的重要内容。本文主要研究
目的:天花粉蛋白(Trichosanthin,TCS)是一种单链核糖体失活蛋白。研究表明,天花粉蛋白具有广谱的抗肿瘤效应,但其抗肿瘤作用机制尚未被完全阐明。本研究拟从细胞自噬这一新的角度来进一步探究天花粉蛋白抗肿瘤作用机制,为天花粉蛋白抗宫颈癌乃至其抗肿瘤作用提供更多的研究基础和理论依据。方法:(1)MTT法检测TCS对宫颈癌HeLa细胞的抑制作用;(2)透射电镜观察TCS处理HeLa细胞后自噬囊
随着信息化的发展,互联网中的信息呈指数级增长。如何快速、有效地从网络中提取所需信息,已成为目前亟待解决的问题。为提高从海量网页中提取信息的效率,人们采用网页分类技
[目的]腰椎退变性疾患常对工作生活产生较大影响,腰椎椎间融合手术作为一种经典技术被沿用至今。目前临床广泛采用经椎间孔入路椎间融合术(TLIF)这一术式,传统TLIF后方软组织剥离创伤明显,影响临床术后效果。本研究采用单切口Wiltse入路联合固定管径通道下TLIF这一改良法,将其与传统术式进行操作及疗效对照,比较其在治疗腰椎退行性疾病中的优劣。[方法]筛选2016年10月至2018年2月就诊于沧州
人脸识别技术一直以来都是研究者们致力于研究的方向之一,由于人脸图像中的人物表情、姿态、面部饰品等方面的变化,人脸识别工作一直以来都是一个较为困难的工作,但经过研究