【摘 要】
:
当前我国新冠肺炎疫情呈多点散发,为快速实现流行病学调查工作中整理流调报告中的关键数据,帮助尽早发现已有病例、密切接触者和次密切接触者,切断传播链,本文研究利用人工智能领域自然语言处理的命名实体识别(Named Etity Recognition,NER)技术自动分析流调数据找出关键关联信息,为后期流调人员快速开展工作提供技术支撑。为此本文以公布的新冠肺炎确诊病例轨迹信息作为主要的数据来源,从构建新
论文部分内容阅读
当前我国新冠肺炎疫情呈多点散发,为快速实现流行病学调查工作中整理流调报告中的关键数据,帮助尽早发现已有病例、密切接触者和次密切接触者,切断传播链,本文研究利用人工智能领域自然语言处理的命名实体识别(Named Etity Recognition,NER)技术自动分析流调数据找出关键关联信息,为后期流调人员快速开展工作提供技术支撑。为此本文以公布的新冠肺炎确诊病例轨迹信息作为主要的数据来源,从构建新冠肺炎确诊病例轨迹信息实体识别(Track information Entity Recognition of COVID-19 confirmed cases,TiERoCOVID-19)语料入手,一方面采用人工标注的方式标注小规模数据集,另一方面通过预训练语言模型的迁移学习来解决数据集小的问题,通过上述主要的两方面工作将命名实体识别技术应用在TiERoCOVID-19任务上。本文完成了从标注语料到实体识别及应用系统搭建的完整过程,主要研究内容如下:1、对公开的新冠肺炎确诊病例轨迹信息进行收集工作,并借鉴其他领域的语料标注流程,进行人工标注,构建了基于新冠肺炎确诊病例轨迹信息的命名实体识别数据集。2、构建了基于统计机器学习方法的实体识别模型。本文构建了基于经典的统计机器学习模型HMM(Hidden Markov Models)和CFR(Conditional Random Fields)模型并运用在TiERoCOVID-19任务上,实验发现CRF模型在标签的结构化预测上具有更好的效果。3、将CRF模型的结构化预测能力和深度学习的表示学习能力相结合,构建了BiLSTM-CRF模型。构建的BiLSTM-CRF模型在TiERoCOVID-19数据集上可以达到91.39%的准确率、90.03%的召回率和90.87%的F1值。4、为解决TiERoCOVID-19任务数据集小的问题,通过利用预训练语言模型的迁移学习能力,构建了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)的实体识别模型,并应用于TiERoCOVID-19任务。本文将BERT模型与BiLSTM-CRF模型相结合,构建的BERT-BiLSTM-CRF模型在TiERoCOVID-19数据集上可以达到的准确率、召回率和F1值分别为93.29%、93.18%、93.22%,与BiLSTM-CRF模型结果相比有了很大的提升。同时,受注意力机制的启发,本文继续在BERT-BiLSTM-CRF模型的基础上引入多头注意力机制,实体识别的效果得到了进一步的提升,准确率、召回率和F1值分别达到了96.88%、97.55%、97.21%。另外,尝试改变引入的多头注意机制中注意头的数量,发现当注意头的数量设置为8时可以达到最佳的实验结果。5、搭建了基于预训练语言模型的实体识别系统。该系统能够从非结构化的新冠肺炎确诊病例轨迹信息中自动识别出关键实体。
其他文献
多媒体学习作为远程学习、在线学习中学习的常见方式,辅助教师教学的重要工具,探索多媒体学习的认知机制对于深入理解和更好地利用多媒体有重要的现实意义。研究选取上海市某高校学生为实验样本,以多媒体学习的认知模型作为实验基础,通过行为数据和脑成像数据的相互印证,研究了脑成像技术视角下的多媒体学习的学习效果,以及认知负荷对学习者影响的可视化的脑成像规律。该研究首先回顾了多媒体学习和超扫描技术的研究现状,对超
能源在休斯顿城市型塑过程中发挥了决定性作用。作为美国的“能源中心”,休斯顿的崛起得益于石油产业的发展;而二战后的天然气产业又催生了休斯顿城市转型的内发新动力。休斯顿天然气产业的发展源于二战期间的一场能源运输变革,这场变革始于战时石油管道项目。一方面,该管道在战后的运营革新了休斯顿的产业结构以及城市景观,但另一方面也使该地区的生态环境进一步恶化。本文主要分为三个部分:第一章追溯休斯顿成为美国石油中心
随着教育信息化的推进,学校多媒体设备数量与日俱增。目前,学校使用的网络报修系统只实现了简单的报修信息收集,没有与设备管理相结合,存在重复报修、审核复杂、无法统计设备故障率等缺点,不能满足学校报修管理的需求。因此,设计和开发一个符合学校需求的报修应用系统,对学校的设备管理具有深远的现实意义和广泛的应用价值。本文以某实验学校为背景,研究了报修系统的发展与现状,发现由于各学校报修流程的差异,目前没有完全
行为识别是计算机视觉领域较为火热的一个研究方向,由于现今各类互联网短视频应用的大量投放与应用,短视频已经逐渐走入了互联网经济时代的各个应用软件。那么在此基础上的视觉技术就获得了更多的应用前景。行为识别技术作为短视频中对目标视频进行自动打标并分析预测的关键技术近年来在各大计算机视觉顶会中大放异彩,但由于三维视频数据相比于二维图像数据多了时间维度从而对设备的计算和存储消耗造成了更多的压力,因此如何将现
高校采用远程或在线方式进行教学的情况越来越普遍,“新冠疫情”期间,数以亿计的在线课程通过各类在线平台,以师生时时互动或异时录播课程的形式,帮助高校师生进行教与学的活动,为人们熟知。与传统线下教育资源的传播方式截然不同,在线教育资源的传播有传播快和范围广的特点。当下,对于此类远程教育资源属于何种作品,应受何种保护的讨论颇多。高校教师创作的在线教育资源,其版权是否归属于教师?在何种情况下归属于教师?关
新时代教育信息化的发展推动了线上线下融合教学的实施,逐渐成为教育改革的新趋势。但是,随着信息更新速度的加快和传输方式的变化,学生在学习过程中也容易陷入碎片化学习和被动接受式学习的困境。因此,如何在线上线下融合教学中促进学生的深度学习成为本研究的重点,而互动作为教学活动的纽带,能够有效发挥在线学习环境和线下学习环境的融合作用,本研究旨在通过设计有效的互动策略促进混合环境下的深度学习。经过文献梳理与研
ROS(Robot Operating System)操作系统具有松耦合、功能库丰富等优势,目前被广泛应用于工业、商业等多种不同领域的机器人开发中。随着应用领域的拓展和用户数量的增长,机器人数据可视化的需求日益复杂,而如Rviz等现有的数据可视化工具,在可扩展和跨平台等方面存在一定局限。结合应用场景和项目需求,本文设计并实现了一个面向Web的ROS机器人数据可视化系统,完成了基于网页的机器人数据可
联邦学习是一种有助于解决多方计算下数据孤岛问题的学习方法,参与方无需共享本地数据,通过分布式协作训练一个高质量的全局模型。联邦学习凭借其去中心化、数据隔离、高计算性能等优势成为工业界和学术界的热门研究方向。然而,大量研究表明联邦学习机制存在许多安全漏洞,由于联邦学习的框架并没有对参与方的资质进行校验、没有对模型的访问权加以约束,也并没有考虑到对传递的参数进行保护。这些漏洞可能被内部参与者和外部攻击
随着劳动者的工作模式从既有“工厂劳动”转向当下的“数字劳动”,时空自由的重要性开始变得愈发突出。虽然网约配送平台宣称劳动者将突破固定的工作场地限制和特定的工作时间安排,甚至拥有更多的“灵活性”和“自由性”。然而当网约配送员在入职后却普遍发现具体的配送服务环节给自己带来了较为沉重的劳动负担,并由此导致“数字平台的虚假自由”“外卖员被困在系统中”等论断的提出。然而吊诡的是,根据《2020年外卖骑手职业