基于RNN在文本分类中的改进及应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:dhamma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
所谓文本分类,就是针对一段文本信息,在所给定的类别中,选出与该文本相匹配的类别作为输出的一个重要手段。文本分类属于自然语言处理领域的一个基本问题,是机器学习等领域中非常活跃的研究方向,并有许多重要的实际应用。因此,研究具有较高精度与较强鲁棒性的文本分类算法有着重要的理论意义与实际意义。本文选择经典RNN的变体LSTM(Long Short-Term Memory)作为文本分类的基础工具有以下原因:一方面,LSTM模型由于引入新的“门”结构,可以很好的解决文本训练过程中样本长度过长学习能力不足的问题,使得与关键词距离较远的词语在学习过程中也可以得到很好的保留。当数据集较大时,就可以更好的对原文本想表达的意思进行学习,从而增强该算法的鲁棒性,并有效地提高了模型的泛化能力。另一方面,该模型在实验过程中可以表现出较高的准确精度,使我们的预测过程从一开始就更加接近事实情况。本文主要针对神经网络方面有监督学习对比研究了one-hot模型、word2vec模型等词嵌入模型、text CNN、Bi LSTM等神经网络框架、注意力模型等,最后部分还对Google最新提出的一些无监督学习模型,如BERT算法进行简述。本文的创新点如下:词嵌入的选取对于神经网络的泛化能力有着很大的影响。目前比较常用的词嵌入模型是one-hot模型,该模型在预处理文本时由于本身的设计缺陷,会导致维度过高从而占用过大的内存空间,在训练过程中无法表达词语之间的关系等问题。针对这个困难,本文提出应用word2vec模型来解决。该模型的原理是数据在经过one-hot模型处理的基础上,将其进行降维处理,并将意思相近的词语映射到向量空间中位置相近的地方,从而完美的解决了原模型存在的维度灾难和词汇鸿沟的劣势。同时,为了更进一步使预测精度得到提高,本文在基础模型中加入了注意力模型,与原模型及text CNN模型进行对比实验。最终实验表明,尽管在训练时长方面,新模型较text CNN模型用时更长,但是通过更换词嵌入模型以及增加注意力模型的方法可以使得计算机在文本分类任务中,既解决数据集较大时,设备条件有限的情况下导致的内存爆炸问题,也达到最终的实验结果上取得相比于原模型和text CNN模型更高的精度的实验目标。除此之外,实验中发现适当的增加训练周期以及隐藏层尺寸会提升准确率。但是学习率过大时,会导致模型出现不收敛的结果。
其他文献
螺旋浆作为舰船推进系统的一个重要部件,其噪声问题不仅干扰本艇水声器材的正常工作,也是敌舰水声观通器材发现的线索。降低螺旋桨的噪声,是我国海军现代化建设中的一个重大课题,目前最有效的方法是采用高阻尼合金。Mn-Cu阻尼合金是目前唯一可用作船用螺旋桨材料的高阻尼合金,它不仅具有金属材料的高强度,同时具有非金属材料的高阻尼性能,在减振、降噪方面性能突出。传统高阻尼合金基本采用铸造工艺制备,虽然具有良好的
花灯,又叫灯彩、灯笼。据说是起源自汉武帝,有一年的农历正月十五,汉武帝在皇宫设坛祭祀天神。由于彻夜举行,必须终夜点灯照明,后来就演变为元宵节点灯。还有一种说法是与宗
研究目的:肌肉骨骼功能评估简表(Short Musculoskeletal Function Assessment,简称SMFA)是国际上评估职业性肌肉骨骼损伤(Occupational Musculoskeletal Injury,OMSI)和普通肌肉骨骼损伤(Musculoskeletal Injury,MSI)常用的工具之一,但每个国家有自己的文化背景,这就影响了国际上研究结果、数据之间的比
<正>2018年2月2日,电磁监测试验卫星张衡一号成功发射入轨,随后进入为期约半年的在轨测试阶段。2月5日,张衡一号搭载的高精度磁强计载荷(包括两个磁通门探头以及一个绝对磁场
会议
反流性食管炎(reflux esophagilis,RE),是由胃内容物反流进入食管,而引起的食管粘膜的炎症损害.我院应用奥美拉唑联合西沙必利治疗RE,并以雷尼替丁联合西沙必利对比观察近期疗效.现报告如下:
由于互联网和信息技术的发展,数字化期刊得到了快速发展,但是其带来的著作权问题也日益严峻。根据数字化期刊的特点和发展概况,分析了数字化期刊存在的著作权保护问题,提出数字化