基于深度学习的多尺度文本分类算法研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:jimlancer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,社交媒体中出现了越发丰富的文本信息数据,特别是在微博和贴吧之中。虽然信息化丰富了人们的生活,但带来的却是监管的困难。由于在社交媒体中常常充斥着一些负面的消息和情况,如果不加以管控,则有可能造成负面的影响,但是以人力难以对庞大的文本数据进行管控,因此如何通过计算机算法对文本信息进行有效准确的分类成为当前计算机领域的一项重要研究课题。根据数据集的样本尺度可以将文本分成短文本和长文本,而两类文本适用的分类方法也不相同。随着机器学习和深度学习的不断发展,文本分类技术也有了很大的进步,但是依旧存在许多问题。为了解决长文本在文本长度上给模型带来的影响,本文提出了一种基于层次结构的自注意力稀疏长文本分类算法。该方法提出将长文本先切分为不同的句子,通过对句子的处理从而得到相应句向量,再通过句向量获得长文本的文本表示,以这种层次结构来有效获得文本特征,避免了文本过长而导致的特征提取困难的问题。再者,为了解决模型无法捕捉重要特征的问题,通过在模型中加入自注意力机制抓取重要特征,通过对特征重要程度的判断,从而分配更多的权重值,得到更加正确的语义表达。最后,通过对RNN门控单元进行结构剪枝,在保证准确率的同时降低参数量,可以有效减少运算资源的使用,降低了运算时间。在此基础上与不同数据集进行实验,同时还与其他论文模型进行了比较,可以得出本模型的有效性。而针对短文本数据,为了解决在短文本分类中神经网络训练时产生的梯度消失、特征信息丢失以及注意力机制短语维度组合不匹配的问题,本文提出一种基于密集池化连接和短语注意力机制的短文本分类算法,该算法首先通过密集池化连接中的残差网络部分进行特征提取,可有效缓解梯度消失问题,并通过池化层复用重要特征,改善特征信息丢失问题。再通过改进常规注意力机制,提出短语注意力机制,可灵活的得到不同阶短语之间联系,解决常规注意力机制短语维度不匹配问题,通过最终实验得出该模型在所有的对比模型中取得了最优结果。本文所提出的两种模型可以有效的对不同维度的文本进行处理,有效解决在不同维度文本中存在的特征提取困难和特征丢失的问题,可以根据文本长度选择对应的处理方法,提高了文本分类效率。最后通过实验可以得出,本文模型可以有效的对通用数据集进行分类,并且具有良好的分类结果,愈发证明了本文模型的有效性。
其他文献
近年来,随着物联网技术快速发展,群智感知作为一种新的感知模式,相较传统的感知模式具有成本低、扩展性强以及覆盖范围广等优势,因此在工业和学术界吸引了越来越多的关注,技术的发展也使其被广泛的运用到了各个领域之中。然而,在感知数据的过程中,用户将消耗如电源,网络流量和时间等资源。此外,由于无线网络具有开放性,用户身份很容易泄露,恶意攻击者对用户的身份信息与隐私构成了潜在威胁。因此,可信认证阶段是至关重要
电气照明设计是指设计人员依据相关电气行业标准和设计规范对建筑工程项目进行的室内外照明设计,用以满足人们生产生活的需要。随着社会的进步,人们生活水平的提高,照明设计的标准和要求也越来越严格。目前设计人员主要依赖CAD(Computer Aided Design)设计及绘图,相对纯手工图纸绘图而言其是一种半自动化的设计方式,仍存在无意义的重复性机械操作,设计效率低。随着建筑行业现代化和信息化的发展,建
基于风光互补发电、电解水制氢、储氢、氢燃料电池等技术的风光互补发电耦合氢储能系统,以氢能为能源载体,是实现可再生能源-氢能-电能规模化应用的重要途径。介绍了风光互补发电、电解水制氢、储氢和氢燃料电池等关键技术的发展现状,对风光互补发电耦合氢储能系统中的离网型、并网型系统和容量配置优化等研究热点进行了分析,为风光互补发电耦合氢储能系统的进一步技术研究和工程应用提供参考。
中国国是水果生产大国,随着人们收入的提高,对高品质水果的需求越来越旺盛,水果的产地检测、病害快速检测等受到消费者与加工商的密切关注。水果品质的优劣直接影响到加工产品的质量、等级及销售。因此,需要一种高效、无损的技术方法对水果品质进行检测。相比传统的检测技术,利用高光谱成像技术检测水果品质具有无损、高效等特点,以脐橙为研究对象,本文使用高光谱技术,结合多种化学计量学方法,主要对脐橙的病害鉴别、脐橙的
高速移动飞行物体空间轨迹研究目前在体育、军事、航天和工业等领域具有非常重要的研究意义与应用价值,乒乓球具有体积小、飞行速度快、运动模型复杂等特性,非常适合飞行物体轨迹研究实验对象,其轨迹研究近年来受到越来越多的研究者关注。本文以乒乓球为研究对象开展飞行物三维轨迹预测研究,搭建了一种基于结合简单物理运动模型约束和双LSTM神经网络偏差修正的轨迹预测模型的轨迹预测系统,在仿真环境和真实场景中都进行了实
BIM(Building Information Modeing)是推进我国建筑业信息化发展的最有利的手段,行业在进行运用探索,国家政策也在大力推进。BIM模型是BIM技术应用的基石,但在BIM模型质量控制方面,当前我国尚未有成熟的模型检查软件和控制体系,检查方式基本上是靠人工检查,质量认可还停留在二维图纸审查的阶段。对于这样的检查模式,容易产生漏检和错检的问题,难以快速、精确地对三维模型进行检查
建筑电气设计是建筑工程设计中不可或缺的一部分,建筑电气设计人员通过学习相关的电气知识,人为地读取各类复杂的建筑图纸,然后结合相应国家电气类规范才可完成设计。目前,建筑电气设计主要以设计二维平面图为主,并处于半人工手绘阶段,存在设计效率低、易发生人为错误等弊端。同时,在实际工程中,二维平面设计图呈现信息的方式单一、可读性差,导致施工效率低下。针对上述问题,本文提出一种在实现二维建筑图纸三维可视化的同
被人们称为“万能之土”的稀土是工业的维生素,全球所有的高科技产品都来源于它。我国的稀土萃取工艺在中科院科学家徐光宪院士的研究成果——串级萃取理论的指导下领跑全球,而萃取过程中组分含量的在线检测仍然停留在“定时取样、离线分析”阶段,部分稀土领域的科技工作者将软测量技术应用于组分含量的快速检测,取得了系列成果。但是,传统的软测量方法需要依靠大量的数据支撑,而复杂的稀土萃取过程却存在数据获取成本高、数据
新常态下的公共管理有利于提高公共管理水平,可以为社会经济的高速发展提供帮助。作为系统化工程,公共管理所涉及的内容极为丰富,诸如社会资源、社会问题,只有合理采用公共管理手段,才能够在迎合时代背景的情况下发挥出其应有的作用。文章通过对新常态公共管理进行研究,并结合实际提出个人看法,希望为关注新常态公共管理的人群提供参考。
条纹投影轮廓测量(FPP)作为非接触式三维(3D)感测/成像的流行技术之一,在过去几十年中得到了快速发展。3D光学传感已经开始成为我们日常生活中不可或缺的一部分,例如智能手机上的3D传感器启用的Face ID等设备。随着FPP在人工智能(AI),机器学习,智能制造,机器人技术以及在其他领域的不断应用,这类技术将产生更加深远的影响。然而,这种先进的光学系统在工业应用中仍然存在一些基本的问题。在结构光