【摘 要】
:
在中文医学信息抽取领域,由于实体标注语料匮乏,传统的命名实体识别模型难以达到较好的精度和F1值。因此,在该领域,常用迁移学习和多任务学习来克服标注语料稀缺的问题。然而,在以往的工作中,采用多任务学习的命名实体识别模型在共享任务数据和共享网络层时,会出现一些任务之外的噪声以及忽略了独立于任务之外的交互信息。信息抽取领域通常将命名实体识别任务和关系抽取任务作为两个相对独立的子任务。在关系抽取和实体识别
论文部分内容阅读
在中文医学信息抽取领域,由于实体标注语料匮乏,传统的命名实体识别模型难以达到较好的精度和F1值。因此,在该领域,常用迁移学习和多任务学习来克服标注语料稀缺的问题。然而,在以往的工作中,采用多任务学习的命名实体识别模型在共享任务数据和共享网络层时,会出现一些任务之外的噪声以及忽略了独立于任务之外的交互信息。信息抽取领域通常将命名实体识别任务和关系抽取任务作为两个相对独立的子任务。在关系抽取和实体识别联合训练中,会出现错误传播以及信息冗余等问题。本文分析了当前国内外的研究现状以及现存的不足,从神经网络共享以及标注策略的角度出发,提出了新的多任务模型和实体关系联合抽取模型。主要的工作内容如下:1、针对中文医学标注语料稀缺,以及现有的多任务模型忽略的问题,提出一种具有交叉共享结构的多任务命名实体识别模型,用于获取独立于目标任务之外的交互特征,并使用预训练语言模型增强语料,提高了实体识别的性能。本文模型在CCKS2017和CCKS2018上实验,F1值分别达到了90.23和87.68,证明了本文提出模型的有效性。另外,因中文分词工具在中文医学领域存在分割错误的问题,本文设计了一种结合中文分词任务的命名实体识别模型,该方法能在有限的数据集上得到更高的实体识别率,缓解了因分词错误导致实体识别率不高的问题。2、在实体关系联合抽取的任务中,针对传统流水线模型出现的信息冗余,错误传播的问题,构建了新的分解标注策略以及实体关系抽取规则,在模型的输入层引入了中文笔画ELMO模型,并通过注意力机制来缓解标注策略带来的类别不平衡的问题。模型在中文糖尿病数据集上的实验取得了72.17的F1值,相较于其它联合抽取模型取得了最好的性能。3、构建与实现中文医学问答系统。本文通过Neo4j搭建中文医学知识图谱,并在中文医学知识图谱上实现问答系统。本系统集成了医学知识问答、实体识别查询、医学知识检索、实体关系抽取查询和知识图谱可视化等系统功能。
其他文献
在计算机视觉中,迁移学习称为领域自适应。通常,数据选自于两个有所差异的数据域,分别是源域、目标域。这两个数据域的差异在于其中数据的特征分布或者所在的特征空间不同。领域自适应的目的是从有足够标注数据的源域中学习知识来帮助没有(或只有少部分)标注数据的目标域进行模型的学习。领域自适应可以有效解决特征分布不同时的跨域识别问题,大多领域自适应方法将两个域的特征投影到子空间,在子空间进行分类器的学习,以取得
随着互联网技术的发展,互联网几乎融入社会的所有行业,并逐渐成为我们生活、学习、工作中必不可少的一部分。作为当今最热门的Web程序开发语言,PHP语言具有成本低、速度快、可移植性好等优点,被广泛应用到互联网应用开发中。伴随Ruby On Rails出现,PHP也涌现出Laravel、Symfony、Yii等优秀的开发框架,并从开始的模仿逐渐过渡到拥有自己特有的风格。但是当前主流的PHP开发框架还是存
注意力缺陷伴多动障碍(Attention Deficit Hyperactivity Disorder,ADHD)是一种常见的儿童神经发育障碍,表现为注意力不集中、过度活跃和冲动,严重影响儿童的日常学习和生活。目前医生主要依靠临床观察和评定量表来进行ADHD的诊断,定性诊断占比高,使得结果具有较大主观性。由于临床上仍然缺乏客观有效的ADHD量化评估方法,对症状较轻微的患者容易造成误诊或漏诊。近年来
技术就是对给定的单个或者多个文本进行总结概括,得到文本摘要。摘要既要能够反映原文档的主要内容,还要尽可能地保持简洁明了。最近几年,由于deep learning技术的快速发展,文本摘要技术也有了很大的改变,不再是只有传统的抽取式文本摘要技术,而是转变为抽取式与生成式共存的文本摘要技术。当原文档中存在多个主题共存这种情况时,目前大多数生成式摘要方法会对这多个主题的内容进行较为全面的总结和概括,尽可能
随着动漫、游戏、电影等产业的迅速发展,人体三维建模的需求日益增加。但传统建模需要精密仪器的测量,成本高且使用环境严苛。视觉计算的迅猛发展为人体三维建模提供另一种方法—基于图像重建模型,即从图像中获取人体三维空间信息,构建人体三维模型。单目图像重建相较于多目图像,因缺少深度信息,获得三维信息是具有难度的。为解决单目图像重建缺乏三维信息,重建模型只关注姿势而忽略形状,且重建误差较大的问题,结合参数化模
研发远程实验平台的动因源于本文作者为解决本科实验教学工作中的困境,在设备台套数不足及排课资源有限的条件下需要完成课时倍增的实验教学任务。本文作者有多个远程实验系统的开发、部署及运维经验。本文分析两个远程实验案例的开发及其技术演进过程后,提出了如下主要设计思路:以FPGA在线编程为核心,以虚拟化云服务为场景,以虚实结合为导向,实现计算机组成原理实验的云服务化。根据这个设计思路,本文展开计算机组成原理
毕业生的就业去向和质量一向是高校十分关注的问题,就业咨询和辅导也是高校十分关注的任务。高校每年都会存储大量毕业生情况和就业去向,但是通过人为分析这些数据中的规律,任务量非常大而且十分困难,并且会十分依赖主观因素。学生自身也很难应用这些数据。同时,辅导者对学生就业辅导时也会片面关注毕业生的部分特质,很难全面兼顾毕业生的所有情况。辅导者个人多年的从业经验也不易复制,无法大量普及,在面对需求量较大的时期
随着全景视觉在智能交通、视觉监控、VR等领域的应用,对全景图像中的人,车等目标的检测需求逐渐增大。等矩形全景图像是全景图像最常用的表现形式,本文围绕它进行研究。由于等矩形全景图像中存在图像畸变、失真等问题,且不同位置上的失真程度不一,使用常规图像检测方法难以完整地提取出物体的特征信息,造成误检、漏检问题。因此,本文提出使用组卷积网络获取图像子区域特征,从而对图像进行特征修正,并引入多尺度特征融合结
互联网的快速发展已经影响着人们的方方面面,人们的生活工作无时无刻不在使用着网络身份。于此同时,在享受着高度信息化的同时,网络的安全性也面临着各种各样的挑战。对于用户而言,众多的账号密码使得用户面临着密码疲劳、密码复用、中心化插件等问题。传统的网络身份认证机制中,各服务器间相对孤立,安全防护出现了木桶短板问题。良莠不齐的网络安全状态下,薄弱的安全防护便成为了网络攻击者的突破口。针对目前通信孤岛的问题
时态规划和概率并行规划是智能规划中两个不同的前沿子领域。前者规定了每个动作的开始和结束时间点,而后者考虑了动作的不确定性效果和并行执行。对同时具有持续时间、不确定性效果和并行执行等特征的动作的规划问题进行规划求解是困难的,当前还没有方法被提出。本文采用基于模拟计算的框架KarmaRan T(Knowledge based Represent and computational-graph base