面向小样本学习的中文命名实体识别算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhl2707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(NER)旨在找出文本中的命名实体并对其分类,是自然语言处理(NLP)领域中的关键任务,是问答系统、机器翻译等多种自然语言处理技术必不可少的组成部分。在实际的应用场景中,带标注训练样本的匮乏是一个不得不面对的难题,因此针对小样本学习的命名实体识别是一个十分重要并亟待解决的问题。随着大量的国内外对命名实体识别任务的不断探索与研究,目前有许多结合了神经网络强大特征提取能力与条件随机场学习标签间关联信息能力的命名实体识别方法,在很多实验与实际应用中证明了这类神经网络加条件随机场方法的有效性。而且近年来随着基于大规模语料训练的预训练语言模型BERT的提出,基于BERT微调的方法也在命名实体的识别任务上带来了不少的提升。但是目前还少有针对小样本的命名实体识别的研究。针对小样本场景下的命名实体识别任务,提出一种面向小样本学习的中文命名实体识别算法。通过对当前有效的命名实体识别方法和小样本学习方法的探究与总结,提出一种基于元学习的命名实体识别算法。该算法内包含学习器和元学习器两个部分:元学器旨在通过元优化学习出一个好的学习器的初始化参数,从而实现学习器在小样本数据的训练过程中能够快速、有效地拟合数据,达到较好的实体识别效果;学习器采用基于原型网络的实体识别模型作为学习器用于对小样本数据的实体分类,其中引入自注意力机制计算字符序列的特征向量,使属于同一类实体的字符具有相似的特征向量。学习器中还采用了可学习的、与任务相关的度量方法,使得实体识别模型能够根据不同的任务自适应学习分类空间,从而更好地对新的小样本任务进行识别。在三个真实的数据集上进行了大量实验,通过与目前应用最广泛且最有效的命名实体识别算法的对比,该算法在解决小样本问题上有着明显的优势,在准确率、召回率和F1值评价指标上均优于其他算法。
其他文献
随着移动互联网的发展,社交网络应用得到了迅速普及,覆盖大部分人群。社交网络方便了人们的生活,然而社交网络中也出现了一些有害群体。这些有害群体利用社交网络应用进行沟通和交流,很可能会产生严重的不良后果。群体发现是社交网络研究中的重要课题之一。研究群体发现可以帮助理解社交网络中的群体的结构特征,群体形成的机制,而且可以根据群体发现结果对有害群体进行必要的引导和管控,减少这些群体行为的有害影响。针对如何
学位
社会发展到工业4.0时代,工业生产领域设备众多,但设备在运行使用过程中难免发生故障,如何防止因设备故障影响正常生产,给人们生活带来不便,甚至生命财产安全是设备维护领域需要高度关注的问题,长期以来,对设备的检修都是依靠设备运行期间累积的经验对设备进行定期维护,但这种维修策略不仅费时费力,而且收效甚微,剩余寿命预测技术通过对设备健康状态的监测,对设备进行预测性维护,有效地解决了传统方法的问题,因此有必
学位
随着计算机技术的发展,三维重建技术已成为计算机视觉方向的研究热点之一。基于多视图的三维重建通过对二维图像序列进行稀疏重建、稠密重建、网格构建、网格优化、贴纹理等过程获取重建对象的三维模型。然而每幅图像中包含大量的背景信息,使得重建的效率低下,重建的模型也包含着周围环境的信息。针对以上问题,通过对三维重建相关技术、图像分割相关技术进行研究,设计并实现了一个基于目标分割的三维建模系统。该系统包含两种数
学位
随着城市不断的发展,地铁也在飞速的建设着,全国各城市地铁运营里程和设备数量也随之激增。作为地铁线网信息传输的大动脉,覆盖了公务电话、传输、无线集群等多个子系统,其系统中设备运行维护的工作压力也在不断增加。本课题在实际项目需求的基础上,详细讨论了当前地铁设备运维的工作中,单纯依靠运维专员的故障经验进行故障处理的局限性,结合目前地铁系统原有的集中管理平台数据,针对设备健康度、设备故障告警、故障专家经验
学位
图卷积网络可以利用来自高阶邻接点的协同信号学习用户和物品嵌入,因此被广泛用于推荐系统之中。但是与其他图卷积模型一样,基于图卷积网络的推荐模型会遇到过度平滑问题,即当堆叠更多层时,节点嵌入会变得更相似,最终变得不可识别,从而导致推荐性能下降。在这样的背景下,对图卷积网络推荐模型进行研究,提出了一种基于子图的图卷积网络推荐模型,该模型通过对子图进行高阶图卷积的方式解决在图卷积网络推荐模型中出现的过度平
学位
随着移动互联网时代的高速发展,我国的主流视频网络企业不断壮大,并且更多的企业通过互联网、社交平台、电子商务等渠道来提升品牌价值,优化企业盈利模式,满足消费者的需求。人们逐渐从信息匮乏的时代步入信息过载的时代,为了给广大信息消费者提供精准的信息流,因此推荐系统逐渐成为移动互联网时代性下的核心关键技术。随着网络中视频流数量和视频流用户的数量急剧增加,视频推荐系统在数量累计的过程中往往会遇到冷启动的问题
学位
上下文信息的获取在语义分割任务中非常重要。卷积神经网络(Convolutional Neural Networks)通过堆叠卷积层扩大感受野,效率较低。基于自注意力的方法没有卷积操作中感受野的限制,更适合在语义分割任务中整合全局上下文信息和处理长距离依赖。但现有的自注意力方法普遍存在着参数量大,计算复杂度高的问题。针对以上存在的问题,设计了一种用于整合上下文信息的自注意力方法:点上下文整合(Poi
学位
室外定位技术目前已经相当成熟,包括有北斗卫星导航系统和GPS等在内的全球卫星导航系统,结合惯性器件或者先验数据和电子地图,进行最优估计和匹配,能够得到较为准确的位置估计。但由于其技术原理的局限性,在室内环境下无法进行定位。随着智慧城市、智慧校园等概念的提出,室内导航定位技术成为了不可或缺的一部分。目前室内定位的技术多为低功耗短距离定位,基于无线WiFi的定位技术在实现和部署方面具有天然的优势,硬件
学位
随着全球化的浪潮到来,信息化导致人们接受的信息呈现了指数型的爆炸增长,而其中各种信息中又以文本数据最为庞大。文本数据通常以非结构化的形式存在,而如何将非结构化的文本信息提取出结构化的信息并且使用计算机进行存储和处理是当前自然语言处理应用场景中一个函待解决的问题。关系抽取能够从非结构化的文本数据中提取到结构化的三元组信息,因此实体关系抽取的方向是解决该问题的关键方向。虽然近年来自然语言处理领域中关系
学位
随着中国社会步入老龄化,盆底功能性障碍疾病发病率将会呈现出上升趋势,盆底功能障碍性疾病已经成为常见的五大慢性病之一,其病征表现严重影响成年女性的生活质量和身心健康,需要进一步提升成年女性对于盆底功能障碍性疾病的认知以及实现盆底功能障碍性疾病的早期干预和治疗。实现盆底功能障碍性疾病的早期干预和早期治疗的重要环节为对盆底疾病进行早期的诊断和筛查,如何利用易于获得的数据对病患群体进行初步筛查,对于改进盆
学位