基于门控图神经网络的文本分类算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:guomenling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能化技术的不断演变和社交网络平台的发展壮大,各种类型的信息数据呈指数级增长,增加了传播信息分类和管理的难度。因此当下用人工智能的方法提高文本信息的分类准确度成为了热门研究方向之一。基于传统机器学习的分类方法需要大量的人工成本以及较为专业的理论知识,对如今日益爆发式增长的文本数据难免力有未逮。而基于深度学习的方法可以运用已构建的模型对数据自动进行特征提取,准确提取模型所需要的重要特征,完成对数据的高效处理。深度学习模型中的图神经网络模型因其在分类精度上的优越性广受关注。因此,本文研究基于图神经网络的文本分类算法,针对图神经网络模型中尚且存在的过拟合、特征稀疏和特征多样性不足等问题提出相应的解决方法,以期进一步提升文本分类准确性,本文具体工作有以下三个方面:1.针对图神经网络中利用图文转换特征进行分类,导致其在训练数据集较少时容易出现过拟合的问题。本文综合图神经网络、数据增强方法以及自注意力机制技术,提出了DASA-GNN(Graph Neural Network based on Data Augmentation and Self-Attention)模型。该模型在保留了图神经网络中图形编码特性的同时,使用了数据增强技术,使得模型在少量训练数据的条件下也能保持相对稳定的性能。进一步的,该模型通过引入自注意力机制,加强了原文本中单词级别的相互联系,同时增强了句子层级的文本信息提取,有效改善了图神经网络在文本分类任务中出现的过拟合问题。在不同数据集上的仿真实验结果表明,DASA-GNN模型可以有效提高网络的性能,提升文本分类的准确性。2.为了进一步提升模型的分类准确性,本文考虑更深层次的特征信息,通过在DASA-GNN模型中引入了区域词嵌入技术,在保留原本数据内部结构信息的同时增加了区域特征信息,改进后的DASA-Re GNN(Regional Embedding GNN based on Data Augmentation and Self-Attention)模型进一步加强了词级间的关系,有效捕捉高阶邻域信息并减轻了数据稀疏对模型性能的影响。通过在不同数据集上的仿真实验表明,DASA-Re GNN模型能够有效提升分类的准确性。3.图神经网络可能会因文本数据中缺乏多样性信息导致网络中提取的特征信息不足,为了解决以上问题,可以在网络中引入注意力机制使其忽略数据中无关特征而专注于有效特征,基于此本文提出了Att-DASA-Re GNN(Regional Embedding GNN based on Data Augmentation and Self-Attention with the Attention Mechanisms)模型。该模型在DASA-Re GNN模型中引入了硬注意力机制、软注意力机制以及多头注意力机制,使得模型可以分别提取不同特点的文本和词汇信息。实验表明,Att-DASA-Re GNN模型注意到了文本的特征信息的多样性,使得模型在文本分类的准确性方面仍有优势。
其他文献
高光谱图像因其丰富的空间信息和光谱信息被广泛应用于多个研究领域,然而获取的高光谱图像中存在着大量的混合像元,这严重影响了高光谱图像的应用及发展。因此高光谱图像解混是高光谱图像应用必不可少的一步。高光谱图像解混是指从高光谱图像中的混合像元中提取纯物质特征(端元)并确定它们所占比例(丰度)的过程。从高光谱图像的空间信息和光谱信息出发,可以建立起基于空谱信息的高光谱图像解混模型,该模型充分利用了高光谱图
学位
有机长余辉是指有机材料在激发结束之后依然可以持续发光的现象,这种独特的光学现象使其被广泛应用于防伪加密、信息存储、光学记录及生物成像等领域。近年来,新型有机长余辉材料的开发及应用研究受到了科研人员的广泛关注。具有独特电荷分离态的激基复合物型有机长余辉材料因其制备工艺简单、余辉持续时间长等优点,更是成为了有机长余辉领域的研究重点之一。但因为激基复合物型有机长余辉发展时间较短,所以仍然存在着一些亟待解
学位
随着老龄化社会的到来,老年听损患者的人数正逐年增加,听损患者的听力康复问题将面临严重的挑战。对于轻度、中度乃至中重度听损患者而言,佩戴数字助听器是当下最有效且最便捷的康复手段。回波抵消算法作为数字助听器的关键算法之一,其性能将严重影响患者佩戴助听器时的听觉体验。本文的研究工作主要围绕数字助听器中的回波抵消算法展开,在经典回波抵消算法的理论基础上,深入研究了基于成比例系数的自适应滤波器和基于频谱修正
学位
在2020年召开的第75届联合国大会上,我国首次提出实现碳达峰、碳中和目标。为推进“双碳”目标的实现,国内正加快发展新能源产业,进一步减少对传统能源的依赖。微电网作为新能源应用的典型场景,已经广受关注。微电网的应用和发展已经趋近成熟,但是在离网运行时的系统稳定性问题仍然存在。而孤岛微网群作为微电网发展的延伸,不仅具有高自主性、高可靠性以及显著经济性等优点,而且能够满足用户个性化需求。孤岛微网群需协
学位
质量管理小组活动和质量信得过班组建设是致力于企业工作质量、效率和方法等方面的管理和提升活动,经历二十多年的尝试、实施和发展,已成为轻工行业实施质量提升行动的有效方式和企业日常生产管理的重要抓手,可有效帮助企业提高质量水平,改善生产与服务,提高职工凝聚力与创造性,在培育企业品牌和增强企业竞争力等方面起到了积极的推动作用。
期刊
如今的用户处在一个信息大爆炸时代,所有的用户面对着大量的信息,从中选取与自己联系密切的相关信息就显得非常困难了。而平台想要为用户提供用户感兴趣的信息也变得更加棘手。电子商务平台、社区团购平台特别是视频平台,面对日益增长的用户以及与之相关的数据,为了提高平台的效率需要从中挖取有效信息,这对针对用户的个性化推荐提出了很高的要求。各视频平台都希望能够实时把握每一个用户的动态信息,实施更加精准的个性化推荐
学位
随着物联网技术的迅速发展,各种各样的设备接入到网络中实现交互和数据交换、收集数据以提供服务。该过程伴随着大量隐私数据的采集和传输,这些数据一旦泄露将会侵害用户权益、对系统安全造成威胁,因此必须采取措施保障物联网系统安全。通过在物联网系统中采用访问控制机制定义和限制数据获取权限,能够有效保护物联网数据安全。考虑到物联网系统存在设备数量庞大、动态性强、自身资源受限的特点,直接将主流中心化数据访问控制方
学位
情绪是人对外界客观事物的态度体验和相应的行为反应。情绪识别是建立和谐、友好、智能的人机交互环境的重要一环。脑电信号(Electroencephalogram,EEG)与中枢神经系统具有直接联系,能够更真实、直观地反映情感变化。因此,EEG情绪识别研究受到越来越多研究者的关注。传统的EEG情绪识别方法是对EEG进行时域、频域等的特征表示,并将这些特征作为分类模型的输入进行情绪识别。然而,此类方法在对
学位
作为最前沿的高新表面改性技术之一,激光冲击强化(Laser Shock Peening,LSP)技术广泛应用于航空工业、石油化工、船舶交通、生物医疗等领域,能够显著提升金属材料的抗疲劳、耐腐蚀及耐磨损能力。作为LSP系统的核心组成部分,激光光源决定了LSP的工艺效果与应用价值。近年来,激光二极管泵浦全固态激光器(Diode Pumped Solid State Laser,DPSSL)的蓬勃发展为
学位
已有基于会话的推荐系统大多根据最后一个点击的项目与当前会话的用户偏好的相关性进行推荐,忽略了在其他会话中可能包含了与当前会话相关的项目转换,然而这些项目转换对用户的当前偏好也有一定影响,因此需要从局部会话和整体会话的角度来综合分析用户偏好;并且这些推荐系统大多忽略了位置信息的重要性,而与预测位置越近的项目可能与当前用户兴趣的相关性越高。针对上述问题,本文提出一种基于全局增强的图神经网络的推荐模型(
学位