基于深度学习的命名实体识别研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fleur0512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,互联网带给人们生活便利的同时,也产生了海量的数据。在数据爆发式增长的趋势下,如何处理海量的非结构化数据,抽取有效信息成了当下最为重要的问题。而命名实体识别技术可以从海量文本数据中提取关键实体信息。因此,命名实体识别任务起着至关重要的作用,具有极高的应用价值与研究意义。近年来,随着计算机硬件条件的提升,GPU的发展十分迅猛。在充足的算力面前,深度学习的应用越来越广泛。在没有计算能力的限制下,深度学习的效果越来越好。面对海量的文本数据,深度学习技术可以从中自动提取有效特征信息,避免了人工提取特征。本文利用深度学习方法开展命名实体识别任务,主要工作与贡献体现在下述三个方面:第一,标注中文命名实体识别数据集。本文实验数据来源于《人民日报》标注语料库(PFR)和微软亚研院(MSRA)命名实体识别语料。两种数据集均为已经标注好词性的语料,如:人名、地名、组织机构名标注为nr、ns、nt。本文将数据集的词性转换为BIO标签,采用BIO和BIOES两种标注形式对两种不同的数据集进行命名实体识别任务研究。第二,构建了IDCNN-CRF命名实体识别模型。在命名实体识别领域,卷积神经网络用来捕获文本的局部信息。除此之外,随着卷积神经网络层数的加深,网络参数以指数级别加深。针对此问题,本文构建了一种基于膨胀卷积神经网络(IDCNN)的命名实体识别模型。由于IDCNN没有池化层,该模型避免了卷积时上下采样导致的数据丢失,同时增大了感受野,以提取更加广阔的全局特征,有效的解决了长距离句子的上下文依赖关系。接入CRF,利用CRF中的状态转移矩阵,对文本输出序列的概率规则进行学习,计算得到最佳的输出序列标签。本文采用不同的参数对IDCNN-CRF模型做了大量的实验,确定了一组最优的实验参数配置。在两种不同的数据集中取得的F1值比基线模型CRF得到的F1值分别提升了10.4%和11.41%,比LSTM-CRF模型分别提升了5.16%和8.34%。与Bi LSTM-CRF模型相比,效果提升了0.38%和2.07%,并且在训练时间上缩短了近30%,明显提高了运行效率。第三,构建了基于BERT-Bi LSTM-CRF的命名实体识别模型。Bi LSTM网络可以提取上下文信息,但是不能对多义字进行表征,针对此问题,本文在Bi LSTMCRF的基础上,引入了BERT预训练词向量。具有双向Transformer编码的BERT词向量通过Mask语言模型有效的解决了多义字表征问题,能够提取词级别和句子级别的特征信息,极大的增强了句子的语义表示能力。本文用BERT预训练词向量替代了传统词向量表示,为CRF提供了强健的语义表示信息。在《人民日报》数据集和MSRA数据集的中文命名实体识别任务中,与基线模型CRF相比,BERT-Bi LSTM-CRF模型取得的F1值提升了15.31%和16.04%。与LSTM-CRF模型相比,提升了10.07%和12.97%。BERT-Bi LSTM-CRF模型的F1值比Bi LSTMCRF模型高出5.29%和6.7%,比IDCNN-CRF模型高出4.91%和4.63%。
其他文献
目的:探究p16INK4a免疫细胞化学染色对高级别宫颈上皮内病变及宫颈癌(high-grade cervical intraepithelial neoplasia and cervical cancer,HSIL+)的筛查效能,以期提出更积极有效的筛查方案,提高宫颈癌筛查的精准性。方法:本研究将宫颈癌筛查结果异常需行阴道镜下宫颈活检的106例患者作为研究对象,对宫颈脱落细胞行p16INK4a免疫
通过理论计算确定Ti O2在Na Cl-Ca Cl2体系中的溶解机理。通过Na Cl-Ca Cl2二元体系相图分析当Na Cl:Ca Cl2=0.48:0.52时体系有最低熔点,并且通过差热分析仪实验研究发现当添加Ti O2含量在10%以内时体系的初晶温度变化不大,另外整个体系的熔点和完全凝固温度变化不大。通过热力学计算和循环伏安法、计时电流法以及方波伏安法等电化学手段对Ti O2在Na Cl-C
目的:通过最小抑菌浓度和红细胞溶血实验筛选3种抗菌肽,建立兔细菌性眼内炎动物模型,分别向玻璃体腔注射抗菌肽和抗生素,评估抗菌肽对眼内炎的疗效。方法:(1)最小抑菌浓度:用肉汤法检测5种抗菌肽对耐甲氧西林金黄色葡萄球菌的最小抑菌浓度。(2)红细胞溶血实验:制备4%红细胞悬液,37℃下与不同浓度的抗菌肽孵育1h,测定吸光度计算抗菌肽的溶血分数。(3)新西兰大白兔36只,向玻璃体腔注射浓度为1×10~3
春风和煦,相约壮族三月三。3月25日起,为期一个月的2019年"壮族三月三·八桂嘉年华"活动在广西各地全面展开,赶歌圩、赏美景、尝美食、购特产,文化、旅游、体育、民俗、商贸活动好戏连台,精彩纷呈。今年是广西确定"壮族三月三"为法定假期的第六年,也是自治区党委、政府打造"壮族三月三·八桂嘉年华"文化旅游消费品牌的第三年。每年的"壮族
期刊
研究目的:通过比较经阴道、腹腔镜与经腹全子宫切除术的术中术后评价指标,以及术后随访1年来研究经三种不同的全子宫切除术对非脱垂性子宫良性疾病患者远期盆底功能的影响。研究方法:选取2019年09月~2019年12月就诊于吉林大学第二医院妇产科诊疗中心,以经阴道全子宫切除术,腹腔镜下全子宫切除术和经腹全子宫切除术的非脱垂性子宫及良性疾病患者共150例。按照手术路径不同分为经阴道全子宫切除组、腹腔镜下全子
研究背景:动脉粥样硬化(Atherosclerosis,AS)是一种由动脉血管内脂质积聚引起的慢性炎症性疾病,巨噬细胞是参与其进展的主要免疫细胞。巨噬细胞通过清道夫受体摄取氧化低密度脂蛋白(oxidized low-density lipoprotein,ox-LDL),胆固醇酯化反应将ox-LDL转化为游离胆固醇(Free Cholesterol,FC),胆固醇外排反应将FC排出。当巨噬细胞内脂
目的:观察行玻璃体切割手术的不同年龄段(40岁及以下或40岁以上)增殖性糖尿病性视网膜病变(proliferative diabetic retinopathy,PDR)患者的临床特点。方法:收集2018年1月至2020年9月于我院眼科中心由同一医疗组收治、同一术者手术治疗的PDR患者的临床资料。详细收集病史及全身资料,并予以玻璃体切割手术治疗,术后定期门诊随访患者,收集视力改善情况、有无术后并发
目的:Ras相关结构域家族1A(Ras-associated domain family 1A,RASSF1A)基因是肿瘤抑制基因(tumor suppressor genes,TSG)之一。在卵巢癌发展过程中,TSG的异常甲基化是极其重要的表观遗传沉默机制。RASSF1A基因启动子甲基化与卵巢癌(ovarian cancer,OC)的发生和发展关联密切。目前,在很多研究的样本量小、检测方法不统一
辣椒素(Capsaicin)类物质是辣椒胎座中合成的重要次生代谢产物,是评价辣椒果实品质性状的重要指标,在医疗、食品、农业、军事等领域都发挥这重要的作用,但在市场上,辣椒素常出现供小于求的情况,主要原因在于辣椒素产量太低,受限于环境条件、生产成本,传统育种方式很难培育出高辣味高产量的新品种,因此在分子层面,通过研究辣椒素合成机制,挖掘影响辣椒素含量的关键基因,找寻提高辣椒素积累的方法在该领域的研究
"玩事"是数字化人力资源管理时代的文化沟通工具,它把一个非常"软"的内容,即企业文化,借助于具体的勋章和金豆等做法构成的体系,做得非常实在。它的理念是:解决好人的因素,则开展工作任务更顺畅,更有利于达成工作目标。2018年4月,时任用友网络科技股份有限公司首席技术官、"玩事"项目创始人程操红先生,应邀来到清华经管学院MBA课堂,对用友企业文化落地互联网工具——"玩事"进行了主题分享:
期刊