基于元学习的小样本文本分类研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:jshaczcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来深度学习的蓬勃发展,在自然语言处理领域,基于深度学习的文本分类算法已经取得了很好的分类效果。不过目前基于深度学习的文本分类算法往往需要大量标注数据才能得到较好准确率,而在一些特殊领域,训练数据不足是一个不可避免的问题,数据的收集非常复杂与昂贵,这使得建立一个大规模、高质量的带标注数据集变得非常困难。因此,小样本文本分类问题成为了当前研究的一个热点。本文首先对当前小样本文本分类问题中,重要的带标注数据集规模小的问题做了深入的研究,结合领域自适应等方法,提出了新的元学习框架下的小样本文本分类模型,该模型能够识别重要的词汇特征以快速提高在小样本文本数据集上的适应性与分类准确率。之后针对部分小样本数据集标注质量不高、存在噪音的问题,本文在原型网络的基础上引入了独特的注意力机制以减小噪音带来的影响,尽可能地提高在噪音环境下的分类准确度。并通过对比实验、消融实验等科学方法,验证了本文所提出两个小样本文本分类模型的有效性。同时开发了一个小样本文本分类原型系统,基于微服务架构,保证了该系统的鲁棒性、可用性和易拓展性。具体研究内容与贡献如下:1.提出元学习框架下的领域自适应网络MLADA。全称为元学习框架下的基于对抗性领域自适应网络MLADA,该模型利用两个相互竞争的神经网络,分别扮演领域判别者和元知识生成者的角色,通过对抗性网络来加强元学习框架对新数据集的适应性。此外,该模型还将元知识生成器产生的可转移的特征与句子的特定特征结合起来,来迅速产生在训练数据中未见过的高质量句子表征向量,最后使用岭回归来获得最终的分类结果。2.提出基于动态原型网络的DAPROTO模型。该模型主要用于带噪音情况下小样本文本分类任务。该模型在基于度量的元学习模型原型网络的基础上,加入了两个注意力机制,一个是粗粒度注意力,突出那些与分类类别相关的词汇,另一个是细粒度注意力,缓解特征稀疏的问题,使得模型能更好地减少噪音带来的影响。3.设计并实现了一套基于微服务架构的小样本文本分类原型系统。该系统基本实现了小样本文本分类问题相关的大部分功能,如数据采集、数据预处理、模型训练、模型管理,并提供了数据集生成、在线小样本分类等功能。该系统使用了微服务架构,每个微服务之间相对独立,部署时可以运行在不同的服务器上,业务上又可以保持数据、信息的交互,以此来保证该系统的高扩展性与稳定性。综上所述,本文研究小样本文本分类问题,提出了两个基于元学习框架的文本分类模型,实验结果表明,这两个模型分别在规模很小与带噪音的小样本文本数据集上取得了很好的文本分类效果。此外,本文还结合微服务架构,开发了一个小样本文本分类原型系统。
其他文献
本文以万泽股份与万泽集团、万泽医药投资的资产置换案例为例,对资产置换的绩效进行了深入研究。该案例属于与控股股东进行的跨行业重大资产置换,资产置换发生后万泽股份所处行业由房地产行业变更为医药制造行业。本文从市场反应和整体绩效两个方面对案例进行研究,并将整体绩效拆分为财务状况质量、财务绩效变化、动机实现情况和战略管理效果四个方面。首先,使用事件研究法分析资产置换的市场反应。接着,采用三维综合评价体系对
学位
2021年我国公募REITs产品首次面市,我国REITs发展的新篇章正式开写。公募REITs产品使得广大投资者可以投资于基础设施项目,此类产品的推出对于基础设施资产的盘活以及投资者投资选择的丰富有着至关重要的意义。与此同时,公募REITs产品在我国的存续时间尚短,仍有着很大的成长空间值得我们去探索。故本文选取首批试点公募REITs产品——蛇口产业园REIT作为案例研究对象,希望能对我国公募REIT
学位
当下医务社会工作在我国获得快速发展,国内先后出台的支持性政策表明了对医务社会工作人才的需求在不断上升。然而以上海为例,在社会工作实务教育中,较多医务社会工作实习生在实习中未能实现与实习督导的“应有”互动,最终呈现出“督导不足”甚至“缺位”的现象。现有研究对这类现象解释多聚焦于教育者,而少有从学生视角进行探讨。因而,本文从医务社会工作实习生角度去了解他们对实习督导和督导关系的期待,以及督导对于这些期
学位
自十九大中央提出建立“租售并举”的住房制度以来,住房租赁行业受到了前所未有的市场关注。第七次人口普查结果显示,我国持续的经济社会发展使得流动人口规模进一步扩大,导致住房租赁需求增长强劲。然而在经历了百年不遇的疫情冲击之后,长租公寓也开始出现“内卷”,问题频发。依靠资本扩张,追求规模增长的阶段即将过去,公寓行业需要由追求数量到发展质量的转变。Z长租公寓(以下也简称Z公寓)创立于2015年,依托政策的
学位
在国家监管部门对房地产行业进行严格调控、房地产业因行业特点难以短期内解决高负债问题的环境下,部分房地产企业为缓解融资压力、使自己的财报数据相对好看且尽量不触及“三道红线”,选择通过各类手段进行财务杠杆操纵。在2018年资管新规出台前,房地产企业所选取的较为常见的手段主要是明股实债和表外负债。资管新规出台后,这两种操纵手段受到一定限制,许多房企开始把目光放到操作起来更为隐蔽、安全的会计手段上。通过会
学位
在商品经济条件下,生产的目的是为了交换,通过商品交换,劳动者获得了满足生存和发展需要的劳动产品。在商品交换和流通的过程中,表面上看是物与物交换的关系,实质上隐藏的是人与人之间交换劳动的关系,物与物的关系往往掩盖了人与人的关系。由于人的需要都必须通过商品来满足,尤其在资本主义的商品经济条件下,大量商品的堆积,特别是从商品到货币的“惊人的跳跃”不能完成时使商品生产者感到无法主宰自己的命运,于是,商品就
学位
随着柔性可穿戴电子设备的迅速发展,柔性可穿戴设备已经在人体运动监测、医疗健康、人工智能、能量储存设备等领域展现出巨大的市场前景,而传感器作为可穿戴设备的核心部件也备受关注。目前已经投入应用的柔性可穿戴传感器一般是以弹性体或聚合物薄膜作为基质,但是它们的拉伸性低、生物相容性较差、并且缺乏功能性,这些因素阻碍了其作为可穿戴传感器的进一步发展。水凝胶作为一种具有良好生物相容性、能实现多功能化的软材料,已
学位
宫颈癌是全球女性中最常见的恶性肿瘤之一,防治宫颈癌主要有疫苗接种、筛查和治疗三种途径。磁共振成像被认为是宫颈癌诊断的最佳影像学检查技术,提高宫颈癌肿瘤区域的磁共振影像识别精度对降低女性宫颈癌死亡率具有重要意义。由于生物医学图像本身存在的异质性和低对比度等特点,当前宫颈癌病灶识别方法主要存在以下问题:(1)以往对宫颈癌病灶识别的研究较少,缺少标准的磁共振影像数据集;(2)当前的宫颈癌识别算法对小病灶
学位
同步定位与建图(Simultaneous Localization And Mapping,SLAM)赋予了移动机器人感知周围环境并进行自主定位与建图的功能,近年来被广泛应用于智能家居、无人驾驶与虚拟现实等领域。其中,基于相机传感器的视觉SLAM具有成本低、易用性强以及信息量丰富等优点,受到了广泛的关注。尽管视觉SLAM取得了许多研究成果,但是仍然面临着诸多挑战。首先,传统的视觉SLAM方法通常仅
学位
随着电动汽车和固定式储能的快速发展,需要可持续供应的能源以满足市场的未来需求。钠离子电池(SIBs),由于地球上丰富的钠储量及其与锂离子电池(LIBs)相似的化学性质,成为了目前已经商业化的LIBs的理想代替品之一。正极材料是影响SIBs实际性能的决定性因素之一,本文选择比容量较高、制备方法简单的Na3V2(PO4)3和Na0.63Li0.21Mn0.79O2为研究对象,采用以磁共振技术为主,结合
学位