基于深度学习的自然环境领域中文命名实体识别研究

来源 :上海第二工业大学 | 被引量 : 0次 | 上传用户:ej17255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代,源源不断产生的数据,形成一个庞大的非结构化数据仓库,同时也为科学技术的发展提供丰富的研究资源。一直以来,如何高效地从海量的数据中获取有价值的信息,这一讨论备受学界关注,人们亟需一种智能化的文本处理技术。此时,自然语言处理应运而出,在处理非结构化数据中发挥着重要的作用。作为自然语言处理任务之一的命名实体识别(Named Entity Recognition,NER),是当前热门的机器翻译、问答系统的核心技术,其识别准确率对自然语言处理的下游任务效果起着决定性作用。NER作为自然语言处理中关键性的上游任务,前期的研究主要是基于英文开展。当前英文NER研究趋于成熟,但是中文NER的效果仍有很大提升空间。在自然环境这个专业领域,目前还没有相关实体词典和公开标注的数据集发表,无法进行后续的研究;而它作为中文NER任务,因本身语言特点,识别难度远大于英文;而且因自然环境领域实体复杂,套用通用领域的神经网络模型效果较差,准确率和F1都有待提高;中文文本存在一词多义实体难以被识别,这一现象也大大降低识别准确率。基于以上问题,本文结合专业领域的工程实际应用,将深度学习方法应用于自然环境领域中文NER的研究,主要的工作和贡献如下:(1)自然环境实体数据集构建。不同领域的NER任务需要建立在该领域的专业词典和语料库上,而当前没有自然环境相关实体定义和公开标注的数据集发表。本文给出一种自然环境实体数据集的构建方法,首先,基于国家环境保护局、中国环境科学学会等机构发布的相关文件资料,人工整理出自然环境相关词典;然后,基于Python编程采用Request、Selenium、Scrapy三种爬虫方法,获取12个网站的自然环境数据,并将数据暂存于txt文件中,使用jieba分词工具,结合自定义的自然环境领域词典和哈工大停用词词典,进行初步数据切分工作;最后,结合智能标注和传统的人工标注法,借助辅助标注平台YEDDA,采用BIO标注方式对总结出的6种实体进行标注,从而构建一个完整的自然环境实体数据集,用于后续的模型对比实验。(2)构建基于BiGRU(Gated Recurrent Unit,GRU)的命名实体识别模型。针对神经网络在特征提取时,向量单一和向量不足的问题,提出一种融合注意力机制的CNN-BiGRU-CRF模型。在特征提取阶段将CNN提取的前后缀特征向量和预训练得到的词向量、词长向量和词性向量拼接成特征向量组合,将BiLSTM替换为模型复杂度较低的BiGRU,提高训练效率,在BiGRU输出后加入Attention机制,给输出序列分配不同权重,提高识别效果。在4个不同领域的数据集上进行对比实验,包括One Notes、Resume两个公共领域,以及产品质检(Product Quality Inspection,PQI)和自然环境两个特定领域。实验结果表明该模型在准确率、召回率和F1值均达到最高值,优于其他模型。(3)构建基于ELMO的命名实体识别模型。在CNN-BiGRU-CRF模型改进的基础上,针对主流的Word2vec模型不能很好解决一词多义的实体识别这一问题,在预训练阶段引入ELMO(Embeddings from Language Models,ELMO)模型,通过ELMO获取词语的动态向量,在多次实验的基础上得到结论,当ELMO特征向量维度为35时,动态向量和CNN提取的字符级别特征向量拼接,可以使模型达到最优效果。在PQI数据集和自然环境数据集的实验结果表明,相较于使用Word2vec词嵌入法,在各个数值上均有提高。最后,本文对自然环境数据集中每个实体的识别效果进行分析,验证了数据集的有效性和模型改进的效能。
其他文献
抗生素常被用于预防和治疗细菌感染等疾病,其随着对人和动物体的用药而进入自然环境,独特的性质使其很难被生物降解。近年来,人们也越来越关注抗生素的使用和处置可能对人类和生态健康产生的不利影响。土霉素(Oxytetracycline,OTC)是在各种水域中检出率比较高的四环素类抗生素,其特性致使很多的水处理技术对其去除不彻底。芬顿(Fenton)氧化技术因能快速降解水中难降解有机污染物而在水处理领域得到
学位
钒是我国战略金属和需优先控制的重金属污染物,但其处理技术有限,利用率低,因此,废弃物中钒的高效回收利用意义重大。微通道作为过程强化的重要研究手段,在液-液溶剂萃取领域对金属离子萃取有着极大的应用前景,本文基于课题组在钒离子形态方面已开展的研究基础,运用微通道对金属钒及杂质离子形态在传质过程中影响进行研究。主要研究内容如下:(1)以伯胺N1923萃取体系为基础,在微通道中研究V(V)的液-液流型和萃
学位
近年来,对绿色能源的需求迅速上升,带动了锂离子电池(LIBs)的快速发展,大量LIBs被用于新能源汽车以及便携式的电子产品中。LIBs在长达5年的使用寿命结束后,会产生大量的废电池。废电池中含有各类过渡金属,现阶段回收电池中金属的传统方法具有回收成本高且容易造成二次污染等问题。据已有的研究报道,过渡金属可以应用于高级氧化技术实现污水处理且效果突出、高效易操作。因此,本论文主要以废旧锂离子电池正极材
学位
光子晶体(PC)是亚微米级周期性有序结构,其关键特征是具有光子带隙(PBG)。PBG中的带隙反射可以调制光的传播方式。本文所制备的单分散聚苯乙烯(PS)微球的表面具有高电荷密度,可以依靠静电力自组装形成非紧密堆积的胶体晶体(CPC)阵列。根据布拉格公式,折射率和晶格间距等能够引起CPC反射波长的变化。因此,可以通过调制CPC的晶格常数或折射率,使其有效地反射紫外、可见或红外光。本文基于CPC独特的
学位
水下航行器在科考研究、民用探测、抢险救援、军事斗争等方面有着较为重要的作用,近年来随着社会的发展和对海洋探索的需要,水下航行器使用逐渐频繁,由于水下航行器的运动环境复杂,所以整个运动控制系统具有强耦合性、时变性和非线性等特点,这也给航行器的控制精度、控制效率、稳定性以及续航能力带来极大挑战,水下航行器控制系统作为无人水下航行器进行自主运动的关键核心,加强对水下航行器控制系统的研究,优化水下航行器控
学位
高介电常数、低介电损耗的介电材料因其在电容器、驱动器和晶体管等电子电气工业中的广泛应用而受到越来越多的关注。目前,聚合物基介电复合材料在提高介电常数的同时,但通常也会存在介电损耗高等问题。本文采用具有较低介电损耗的高抗冲聚苯乙烯(HIPS)为复合物基体,通过调整填料与基体的比例,探究能够提高聚合物基介电复合材料介电性能的最优方案,并同时保持低介电损耗及高击穿场强等性能。另外,由于高温和高电场下的能
学位
目前,能源已成为经济社会发展过程中所必需的基本资源,但由于世界范围内能源的不断消耗以及越来越多环境问题的产生,可再生能源成为一种最佳可替代方案。在现有的可再生能源中,太阳能最具潜力,因此,众多研究人员专注于如何提高太阳能的利用率。纳米流体作为一种新型的工作流体在太阳能光热利用方面极具前景,能够显著提升太阳能的利用率。纳米流体的基液、纳米颗粒的种类和性质是决定纳米流体光热效率的关键要素。氧化锌纳米颗
学位
目前锂离子电池凭借成本低、比容量大、安全环保的特点被应用于电动汽车、数码类产品、电动力产品、医疗用具和安全防护等。由于地球上镍和钴储量中具备商业开采价值量稀少,所以更加需要研发价格低廉、节省材料的高性能锂电池正极材料。Li Mn2O4正极材料相比于Li Co O2材料资源丰富,有望成功替代Li Co O2成为最有发展的理想能源材料。Li Mn2O4正极材料的最大缺点是在高温下容量易衰减并且结构难以
学位
机床在现代制造业中发挥着重要的作用,在一定程度上体现了国家的工业水平。考虑到机床主轴内滚动轴承是最关键的部件之一,其运行状态往往影响机床的整体性能。但是目前传统的故障诊断方法,往往不能在故障发生的初期就能准确诊断,因此需要对轴承微弱故障进行深入的分析研究。针对滚动轴承运转过程中出现故障的情况,本文中将小波处理方法、变分模态分解(variational mode decomposition,VMD)
学位
废弃黑木耳菌糠是种植黑木耳产生的剩余固体培养基,主要由木质纤维素物质组成,含水率高达70%。我国每年产生数量庞大的废弃黑木耳菌糠,由于缺少大规模处理方法而被随意丢弃于田野间,造成严重的环境污染和资源浪费,亟需开发切实可行的资源化利用方式。燃料化利用是一种可大宗消纳废弃黑木耳菌糠的方式,可以从根本上解决生态环境压力,此方法不仅利用了废弃菌糠中蕴含的大量生物质能,并可成为一项增加菌农收入的民生工程。提
学位