基于深度学习的在线医疗信息抽取研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:jiapeng1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的发展以及公众健康自我管理意识的转变,“互联网+医疗”在逐渐的改变着人们的生活方式。目前,国内外出现了许多在线医疗社区、医疗健康信息网站以及面向各种用户的医疗健康类APP,此类在线医疗健康平台主要提供医疗健康知识、疾病信息、药物信息、医疗健康新闻以及疾病问诊等服务。患者、医护人员、医疗科研人员等不同用户在在线医疗平台上描述、分享、咨询关于疾病、药物、治疗过程、治疗方案、新的医疗知识等医疗健康相关信息。国内较为知名的在线医疗平台有好大夫在线、春雨医生、寻医问药网等,每天都有大量的活跃用户。因此在线医疗平台上包含了海量的医疗相关数据,这些数据中蕴含着丰富的医疗价值。但是此类在线医疗文本大部分是非结构化文本,如何对此大量的非结构化的在线医疗文本进行进一步的挖掘和利用,医疗实体抽取、医疗实体关系抽取和医疗实体属性抽取通常是第一步。目前,信息抽取主要关注于社交媒体文本、新闻文本等日常领域,进行人名、地名、机构名等命名实体识别和相关研究;在医疗健康领域,信息抽取则主要针对电子病历、出院小结等专业医疗文本方面。对在线医疗数据进行信息抽取的研究则较少,主要使用隐马尔可夫、支持向量机、条件随机场等机器学习方法。传统的信息抽取方法都严重依赖于人工提取的特征,人工进行特征提取不仅花费大量的时间成本和经济成本,并且提取的特征有限。深度学习方法能够有效的解决此问题,可以通过深层神经网络完成对特征的自动提取和表示,且已被学者证明在对海量数据进行信息抽取时,基于深度学习的信息抽取效果优于传统的信息抽取方法。本论文分析了在线医疗文本子语言特点,在此基础上构建混合深度学习模型进行医疗实体、医疗实体关系和医疗实体属性抽取任务,通过实验和应用案例证明了本论文所构建模型的有效性和有用性。本论文的主要研究内容主要包含以下五个方面:(1)揭示在线医疗文本子语言特点,在此基础上构建基于深度学习的在线医疗信息抽取框架。使用统计分析方法对在线医疗文本和临床文本的子语言特点进行对比分析,从文本所包含的内容、词类的使用频率、文本包含的主要语义类别等角度研究在线医疗文本的子语言特点。以在线医疗文本子语言特点为基础,分析传统信息抽取方法的不足,并对不同的深度学习模型进行深入研究,选择适用的模型构建基于深度学习的在线医疗信息抽取框架。(2)构建混合深度学习模型CNN-BLSTM进行医疗实体抽取。以i2b2 2010评测会议对电子病历医疗实体识别任务的描述为理论基础,对在线医疗信息抽取任务中的医疗实体类型和医疗实体抽取目标进行了定义。根据医疗实体抽取任务的问题描述,构建了混合深度学习模型CNN-BLSTM框架。以在线医疗文本数据处理流程为基线,从数据预处理、医疗实体抽取的特征选择、医疗实体抽取的Feature Embedding处理、BLSTM层和标签序列输出五个阶段论述了基于CNN-BLSTM的医疗实体抽取过程。三组实验结果对比分析表明,本论文所构建的混合深度学习模型CNN-BLSTM对在线医疗文本中医疗实体抽取的效果优于CNN模型和BLSTM模型。(3)构建混合深度学习模型BLSTM-CNN进行医疗实体关系抽取。以i2b22010评测会议对电子病历医疗实体关系识别任务的描述为理论基础,对在线医疗信息抽取任务中的医疗实体关系类型和医疗实体关系抽取目标进行了定义。根据医疗实体关系抽取任务的问题描述,构建了混合深度学习模型BLSTM-CNN框架。在BLSTM-CNN模型框架中,首先通过BLSTM层对句子的每个词汇的输出特征进行整合完成对整个句子的语义学习;其次根据两个医疗实体在句子中的位置将句子特征划分为三个部分,使用CNN模型对此三个部分的特征进行卷积和池化,通过CNN的全连接层提取句子的特征向量;最后将句子特征向量送入到softmax分类器中进行医疗实体关系分类。实验结果证明,本论文所构建的混合深度学习模型BLSTM-CNN对在线医疗文本中医疗实体关系抽取效果好于BLSTM模型和CNN模型。(4)研究两种混合深度学习模型在医疗实体属性抽取任务上的应用。医疗实体属性抽取既可以看做序列标注问题,也可以看做分类问题。医疗实体属性抽取的特征选择与医疗实体抽取和医疗实体关系抽取有一定的差异,对医疗实体属性抽取的特征进行重新分析和选择后,分别使用两种混合深度学习模型对医疗实体属性进行抽取。实验结果表明混合深度学习模型CNN-BLSTM对在线医疗文本中医疗实体属性抽取的效果更佳。(5)探讨在线医疗信息抽取结果在疾病关联检测中的应用。本论文对在线医疗信息抽取结果的可能应用领域进行了总结,并选取疾病关联检测进行具体的应用论证。根据疾病医疗实体间的PIP关系类型,以及疾病的时间属性和患者的时间属性,识别疾病与疾病的共现关系和因果关系,最后以医疗健康指南和相关资料对检测到的疾病关联关系进行验证。
其他文献
以明胶厂富产的磷酸氢钙为原料,与硫酸钾在液相中进行复分解反应,得到的母液经净化、蒸发和结晶制备得到磷酸二氢钾。考察了母液净化方式、母液pH、水蒸发量和自然冷却结晶等
隐花色素是一种广泛存在于植物和动物中的蓝光受体,并首先在模式植物拟南芥中发现。植物有三类隐花色素:CRY1、CRY2和CRY3。拟南芥中,CRY1主要在光形态建成过程中起作用,对开
本文介绍了独立式感烟火灾报警探测器静音功能国内外标准的差异,探讨了不同要求背后的设计理念以及目前独立式感烟火灾报警探测器在推广使用中存在的问题,并分析问题形成原因
本论文主要设计合成了不同的基于Preyssler型多酸的有机-无机杂化化合物,并对它们的结构和性质进行了研究。论文的主要内容和结果如下:1.通过S-中心Preyssler型多酸与过渡金
<正>在永磁同步电动机的永磁体和绕组流过电流时产生的磁势共同作用下,定子铁心会产生饱和效应,导致绕组电感发生变化。在分析永磁体磁势和绕组磁势对绕组电感调制关系的基础
<正>想要提升高中英语阅读课程的教学实效性,教师要找到一些好的教学突破口。从情感维度来优化高中英语阅读教学就是一个很好的尝试。通过对于教学文本中情感内涵的有效挖掘
一、在区域港口发展中的地位与对策1.发展现状深圳港是华南地区重要的集装箱干线港,截至2007年底,已建成集装箱专用泊位27个。作为华南地区集装箱干线港,目前深圳港已经形成
目的:研究FOXC2在不同分型的胃腺癌组织中的表达情况,对比其差异与相应临床病理因素之间的关联,并分析其对胃癌患者预后的影响;初步探讨下调FOXC2表达水平对胃腺癌细胞侵袭迁移等生物学行为的影响;初步探究FOXC2在胃腺癌细胞“干性”维持中的作用。方法:(1)运用免疫组织化学染色方法,对FOXC2在胃腺癌组织中的表达情况进行检测并评分;通过卡方检验,分析FOXC2染色结果与相关临床病理资料之间的关
随着社会发展和科学技术的进步,在高校基础设施建设、教学科研工作中,项目质量管理得到更多的重视。J高校力学实验中心始建于2011年6月,一期土力学实验室投资50多万元,已完成
地区经济发展的不平衡、城乡经济水平的差距和户籍制度的松动,导致了大规模的人口流动。以2014年全国流动人口卫生计生动态监测调查数据为样本,对外群歧视与流动人口家庭收入