基于Spark的中文文本情感分析研究

被引量 : 0次 | 上传用户:dxc1989120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展推动着大数据时代的到来,人们每天接收的信息在爆炸式的增长,对海量数据的存储能力和计算能力的高要求正在推动着大数据技术的进步。如今越来越多的用户活跃在各大网络平台上,喜欢通过文字表达自己的情感,随之而来的是海量文本数据的产生,如何对这些海量文本进行情感分析成为当下的研究热点。云计算技术的出现为海量数据的存储和计算提供了基础条件,从而推动着大数据技术生态的蓬勃发展,其中Spark作为计算框架被广泛应用在大数据领域,通过Spark框架进行中文文本情感分析,解决海量文本场景下的数据处理和计算效率问题。本文在对文本情感分析技术理论知识研究的基础上,结合Spark分布式机器学习算法,针对海量文本数据,通过搭建Spark单机平台与Spark分布式计算平台,基于这两种环境进行中文文本情感分析。主要完成的工作有:第一,搭建Spark分布式集群,基于虚拟机环境的Cent OS 7系统搭建Hadoop平台以及Spark 3.0分布式计算平台;第二,原始数据采集,通过编写Python代码构建数据采集框架,从而对网络平台上的海量文本进行高效获取,将采集的文本数据分布式存储在Hadoop平台的分布式文件系统HDFS中;第三,数据预处理,构建基于Spark的并行数据预处理方法对采集的海量文本进行高效处理,首先通过Spark进行文本数据的清洗,其次使用中文分词工具Ansj进行中文文本分词,然后使用哈工大停用词表去除停用词,最后通过TF-IDF算法对文本进行特征提取;第四,构建情感分类模型,基于Spark框架构建分布式机器学习的文本分类模型,包括朴素贝叶斯分类模型、支持向量机分类模型以及逻辑回归分类模型。将构建的三种情感分类模型分别在Spark单机环境和分布式集群环境下进行实验对比,得出的结果表明,分布式集群环境下模型的训练效率要高于单机环境,并且随着数据集规模的扩大,两种环境下模型训练效率的差距也越明显。对于海量文本,在Spark分布式环境下进行情感分析有更高的效率。
其他文献
银行声誉风险是当今商业银行所面临的最严峻的风险之一。一旦银行声誉受损,不仅会影响其业务拓展,更会严重影响企业的信用和声望。因此,银行声誉堪称金融业的“生命线”,需要在新经济形势下给予更多的关注。银行需要利用互联网和新技术的优势,建立强大的风险监控机制,及时发掘和解决可能对声誉产生的负面影响。同时,银行也需对各分支行人员合理配置,加强员工的风险意识和管理能力,完善内部风险管控制度,优化服务流程、提高
学位
图像作为高效快速的信息传递载体,对于人们获取和传递信息具有重要意义。由于图像采集设备本身硬件条件的不足、人为因素和环境因素的干扰,导致采集到的往往是由原始图像经过一系列退化过程所得的低分辨率图像,易出现失真、模糊、噪声等现象。基于深度学习的图像超分辨率重建技术,可以在不依赖原始图像采集设备的条件下,通过算法建模的方式直接提取低分辨率图像的特征来提升图像的分辨率,是一种具有高性价比和高可行性的图像处
学位
表观转录学的兴起衍生出了诸多生物信息学分支,其中就有在生信研究中较为广泛的RNA化学修饰问题,该领域主要研究修饰位点的检测、测序以及不同修饰对生物遗传的影响。迄今为止,已有超过160种RNA化学修饰被发现,这些修饰对RNA的配对、剪接翻译以及转录稳定性方面都有着重要影响。而在信息技术发展前,RNA化学修饰检测主要依赖于高通量测序技术和质谱技术等实验方法,这些方法虽然能检测到修饰位点,但实验所耗费的
学位
学位
m6A是真核信使RNA修饰中含量最丰富的一种修饰方式,在控制细胞功能和基因表达中起着重要的调节作用。m6Am也是RNA转录后修饰的一种方式,可能与细胞功能控制中的调节作用有关。然而,通过实验方法以单碱基分辨率检测m RNA中的m6A(m)位点仍然是一个挑战,而且这种方法通常耗时且昂贵。发展计算方法是从大量RNA序列数据中准确检测m6A(m)修饰位点的良好策略。因为准确地鉴定转录组范围内的m6A(m
学位
宫颈癌(CESC)是女性生殖道常见的一种发病率较高的恶性肿瘤,发生在子宫部位。近年来,宫颈癌的发病率和死亡率在全世界急剧上升。这种肿瘤大多在现有的医疗条件下是无法彻底治愈的,但如果早期发现,早做治疗,预后还是比较好的。随着生物信息学技术的快速发展,用生物信息学的各类组学数据对癌症进行相关探索已经成为当下科研人员感兴趣的研究课题。目前比较常见的有DNA甲基化数据,基因表达谱数据和拷贝数数据。目前大部
学位
蛋白质是一切生命的基石,承载着重要的生命活动。蛋白质翻译后修饰(Post-Translational Modification,PTM)是对翻译后的蛋白质共价加工的过程。正常PTMs能改变蛋白质结构和性质,调控蛋白质功能,而异常PTMs与人类疾病的发病机制密切相关。因此,探究PTMs机制对于理解蛋白质生物学作用,开发靶点药物等具有重要意义,准确识别PTMs位点是探究的关键。现有的识别PTMs位点的
学位
组合优化问题指的是从一组对象中选择若干满足约束条件的对象,同时优化某个目标函数,从目标函数的所有可行解中寻找最能符合原问题约束要求的最优解。典型的组合优化问题包括旅行商问题、背包问题、装箱问题,常用的求解方法有分支定界法、动态规划法等。狼群算法是通过模拟自然界中狼群追踪猎物的行为,利用多个狼群的协同搜索对目标问题进行求解的群智能优化算法。该算法具有全局搜索能力强、收敛速度快、适应性强以及可扩展性好
学位
随着人工智能以及工业技术的快速发展,现代制造业也异军突起。传统的陶瓷产业的发展较为滞后,随着3D打印技术的出现,现在已经可以实现智能化的陶瓷生产,但目前对于个性化陶瓷产品的智能设计研究较少。由于陶瓷种类繁多且名称繁杂,并且非专业人员对陶瓷器型以及陶瓷制造技术认识不全面,导致其设计存在周期长、难度大的问题。针对这些问题,本课题研究并开发了满足多模态需求的个性化陶瓷产品智能设计系统,通过人工智能技术能
学位
学位