基于子词嵌入和相对注意力的材料实体识别

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:sam2009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的一项基础性研究课题,其目标是在句子中辨认并提炼出指定类型的实体词信息。准确的辨别非结构化文本中的实体词可以协助完成诸如智能翻译、自动摘要、情感分析等多项下游任务。材料命名实体识别对机器理解材料领域文献,构建材料知识库起着重要的作用,正确且高效的识别材料实体有助于提高查阅效率并减少重复的科学研究工作。但是目前材料领域命名实体识别还存在着一些不足:(1)目前常用的词嵌入方法不能适应材料领域实体词的特异性和多变性,不能有效提取材料相关词汇中蕴含的通用化信息。(2)序列标注方法如BERT-CRF模型,没有针对命名实体识别做出特殊优化处理,可能导致混淆各个单词间的关联关系。(3)材料领域语料少,标签分布不均,实际使用中出现的罕见词相比于通用领域较多。针对上述材料的实体识别问题,进行了以下三个方面研究:1)面向命名实体识别,针对目前常用的自注意力模型提出优化,讨论了Bi LSTMRMHA-CRF模型相较于其他模型对于材料实体识别的提高作用,并对多个前沿识别模型在SOFC两项数据集下的实验结果进行了比较和研究。同时通过消融实验分析了模型中不同模块对于材料实体识别的提高作用。2)提出使用基于一元语言模型的子词嵌入特征表示方法,针对Word2Vec存在的未登录词问题和一般字符嵌入粒度不可控问题做出优化。在有效处理未登录词的同时,利用材料领域词汇中蕴含的结构化词缀信息,并兼顾大数据预训练词向量的信息优势。同时基于概率的子词嵌入方法相较于一般的子词嵌入方法更具解释性,其量化的多种分词结果可以有效提高模型的鲁棒性。经验化的研究表明结合一元语言模型的子词嵌入可以较大程度的提高模型对于材料领域罕见词的适应能力,从而提高材料实体的识别准度。3)面向材料领域语料匮乏,实体分类极度不均衡的问题,针对性的提出基于正则模板和类平衡的数据增强方法来解决。该方法通过自动批处理生成合乎语言结构的相似语料,强化模型对于小类别的识别能力,从而提高模型的泛化能力和辨识材料实体词的综合水平。实验表明该方法能够有效降低训练语料带来的模型偏侧化问题,并提高模型对于通用语言结构的学习能力。
其他文献
作为影响林火发生及火烧强度最重要的因素,森林可燃物的类型提取及其其它特性研究尤为关键。当前针对森林可燃物类型的提取多是基于飞行器拍摄获取的影像数据,数据集庞大,需要从中选出有代表性的数据来有效表征该区域内的可燃物类型。目前有关于森林火灾发生特性的研究主要集中在可燃物的分布、含水率等方面,其中可燃物的含水率的高低是影响森林内传感器布局的重要因素。本文围绕森林可燃物类型提取及森林内传感器布局两方面内容
学位
近年来,随着居住环境日益受重视以及生产生活方式向室内化转变,人们对室内居住环境提出了越来越高的要求。目前,室内建筑材料、装饰材料和有机涂料油漆是室内污染的主要来源,其污染物主要是低分子量(小于100 Da)的挥发性有机化合物(Volatile Organic Compounds,VOCs)(如甲醛、苯及甲苯等有机化合物),这些有机气体具有很强的挥发性和毒性,极易对人体健康造成危害。由于人类的感知系
学位
随着互联网技术的迅猛发展,衍生了海量网络数据资源,信息过载问题愈发严重,如何高效获取有用信息成为当今社会的热点关注问题。推荐系统能够有效过滤不相关信息,主动为用户推荐符合其兴趣或需求的内容,缓解了信息过载问题对用户造成的困扰。目前,主流的推荐算法是协同过滤技术,它通过从用户历史行为信息中挖掘用户偏好进行推荐,但评分数据稀疏性和冷启动问题一直制约着协同过滤技术的发展。为解决上述问题,提升推荐准确性,
学位
眼科疾病主要是指人体内的视觉系统内部发生病变,病变区域主要包含眼球及其周边相关部位。青光眼,作为众多眼科疾病中具有代表性的一种,是一种具有不可逆性的致盲性眼底疾病。青光眼患者早期并不会产生一些显著的生理性症状,一旦出现视力下降、视野缺失等症状时,患者的病情已经到了不可逆转的地步。在实际的诊疗中,眼科医生主要通过眼底照相机得到患者的彩色眼底图像,继而进行初步的检查工作。但是在青光眼患者的临床诊断中,
学位
非厄米系统是与外界发生能量交换的开放系统。非厄米系统的参数空间中存在一个特殊点,在这一点处本征值发生重合,且原本保持正交的本征向量也聚合到一起,这个点被称为非厄米系统的奇异点。工作在奇异点(Exceptional Point,EP)附近的系统对扰动产生非线性响应,使基于奇异点的超灵敏传感成为了研究者关注热点。基于共振光隧穿效应的谐振腔具备易于集成和成本低廉的优点,为传感应用的设计提供了新的选择,目
学位
农业机器人的发展是农业现代化进程中不可缺少的一环,农业从业人员的减少、人本成本的上涨以及设施化栽培规模的逐渐扩大,为农业机器人的发展提供了契机和条件。番茄作为最普遍的鲜食蔬菜之一,在我国的栽培规模和食用需求都是极大的,为了保证番茄的品质和产量,在番茄的整个栽培周期中需要不断的进行整枝。在我国,番茄整枝工作主要依靠人工完成,其成本占番茄生产周期中人力成本的40%-60%,因此,研发一款番茄整枝机器人
学位
微表情作为一种独特的面部表情,和一般的表情比较,通常具有如下几个特点:一、动作显现时间特别短暂,一般只有1/25s~1/3s;二、面部情绪动作强度比较低,很难被人们发觉;三、是由人类在无意识状态下产生的;四、对微表情方面的研究通常在视频资料中展开,而对普通面部宏表情的研究在单帧的图片中就可以进行。由于微表情情绪都是由人类在其自身意识没有感知的状态下自发生成的,一般很难被隐藏,能够揭示人类最为真实的
学位
随着深度卷积神经网络的发展,基于深度学习的视频目标检测算法的检测精度和速度都取得了突破性的进展,但其仍面临着诸多挑战。比如逐帧通过大型卷积神经网络提取特征并进行特征聚合,单帧图像检测算法计算资源消耗大,不能满足实时在线的视频目标检测。本文以基于内存增强的全局-局部融合方法(MEGA)为基本的检测框架,提出一种基于特征传播和知识蒸馏的视频目标检测算法,分别从时间维度和单帧图像目标检测维度对MEGA算
学位
目前,语义分割任务主要是通过卷积神经网络提取影像数据中的语义信息,实现图像的像素级分类。随着卷积神经网络的不断发展和完善,基于神经网络的分割模型在语义分割任务中取得较高的准确率,但是这些分割模型在训练过程中通常需要强大的算力支持,无法达到实时分割的效果。现有实时分割算法虽然可以快速对图像进行分割,但在图像边缘部位分割粗糙,无法达到精细分割的效果。为了使分割算法达到精确且快速分割的效果,本文提出了多
学位
猕猴作为人类的近亲,在生理上与人类接近,通过猕猴来探索人脑的工作机制和病理机制是人脑研究的一种重要手段。近年来,跨物种比较神经影像学新技术和方法的研究越来越受到重视,并逐渐成为脑科学研究的热门问题。目前,主要的跨物种比较方法是使用已有同源脑区作为参照系,该方法比较依赖已有同源脑区的信息,而在部分脑区的研究过程中,可能存在先验同源脑区信息缺失的情况。最近的研究表明,在高等灵长类动物中,白质组织在不同
学位