论文部分内容阅读
随着移动互联网技术的发展以及公众健康自我管理意识的转变,“互联网+医疗”在逐渐的改变着人们的生活方式。目前,国内外出现了许多在线医疗社区、医疗健康信息网站以及面向各种用户的医疗健康类APP,此类在线医疗健康平台主要提供医疗健康知识、疾病信息、药物信息、医疗健康新闻以及疾病问诊等服务。患者、医护人员、医疗科研人员等不同用户在在线医疗平台上描述、分享、咨询关于疾病、药物、治疗过程、治疗方案、新的医疗知识等医疗健康相关信息。国内较为知名的在线医疗平台有好大夫在线、春雨医生、寻医问药网等,每天都有大量的活跃用户。因此在线医疗平台上包含了海量的医疗相关数据,这些数据中蕴含着丰富的医疗价值。但是此类在线医疗文本大部分是非结构化文本,如何对此大量的非结构化的在线医疗文本进行进一步的挖掘和利用,医疗实体抽取、医疗实体关系抽取和医疗实体属性抽取通常是第一步。目前,信息抽取主要关注于社交媒体文本、新闻文本等日常领域,进行人名、地名、机构名等命名实体识别和相关研究;在医疗健康领域,信息抽取则主要针对电子病历、出院小结等专业医疗文本方面。对在线医疗数据进行信息抽取的研究则较少,主要使用隐马尔可夫、支持向量机、条件随机场等机器学习方法。传统的信息抽取方法都严重依赖于人工提取的特征,人工进行特征提取不仅花费大量的时间成本和经济成本,并且提取的特征有限。深度学习方法能够有效的解决此问题,可以通过深层神经网络完成对特征的自动提取和表示,且已被学者证明在对海量数据进行信息抽取时,基于深度学习的信息抽取效果优于传统的信息抽取方法。本论文分析了在线医疗文本子语言特点,在此基础上构建混合深度学习模型进行医疗实体、医疗实体关系和医疗实体属性抽取任务,通过实验和应用案例证明了本论文所构建模型的有效性和有用性。本论文的主要研究内容主要包含以下五个方面:(1)揭示在线医疗文本子语言特点,在此基础上构建基于深度学习的在线医疗信息抽取框架。使用统计分析方法对在线医疗文本和临床文本的子语言特点进行对比分析,从文本所包含的内容、词类的使用频率、文本包含的主要语义类别等角度研究在线医疗文本的子语言特点。以在线医疗文本子语言特点为基础,分析传统信息抽取方法的不足,并对不同的深度学习模型进行深入研究,选择适用的模型构建基于深度学习的在线医疗信息抽取框架。(2)构建混合深度学习模型CNN-BLSTM进行医疗实体抽取。以i2b2 2010评测会议对电子病历医疗实体识别任务的描述为理论基础,对在线医疗信息抽取任务中的医疗实体类型和医疗实体抽取目标进行了定义。根据医疗实体抽取任务的问题描述,构建了混合深度学习模型CNN-BLSTM框架。以在线医疗文本数据处理流程为基线,从数据预处理、医疗实体抽取的特征选择、医疗实体抽取的Feature Embedding处理、BLSTM层和标签序列输出五个阶段论述了基于CNN-BLSTM的医疗实体抽取过程。三组实验结果对比分析表明,本论文所构建的混合深度学习模型CNN-BLSTM对在线医疗文本中医疗实体抽取的效果优于CNN模型和BLSTM模型。(3)构建混合深度学习模型BLSTM-CNN进行医疗实体关系抽取。以i2b22010评测会议对电子病历医疗实体关系识别任务的描述为理论基础,对在线医疗信息抽取任务中的医疗实体关系类型和医疗实体关系抽取目标进行了定义。根据医疗实体关系抽取任务的问题描述,构建了混合深度学习模型BLSTM-CNN框架。在BLSTM-CNN模型框架中,首先通过BLSTM层对句子的每个词汇的输出特征进行整合完成对整个句子的语义学习;其次根据两个医疗实体在句子中的位置将句子特征划分为三个部分,使用CNN模型对此三个部分的特征进行卷积和池化,通过CNN的全连接层提取句子的特征向量;最后将句子特征向量送入到softmax分类器中进行医疗实体关系分类。实验结果证明,本论文所构建的混合深度学习模型BLSTM-CNN对在线医疗文本中医疗实体关系抽取效果好于BLSTM模型和CNN模型。(4)研究两种混合深度学习模型在医疗实体属性抽取任务上的应用。医疗实体属性抽取既可以看做序列标注问题,也可以看做分类问题。医疗实体属性抽取的特征选择与医疗实体抽取和医疗实体关系抽取有一定的差异,对医疗实体属性抽取的特征进行重新分析和选择后,分别使用两种混合深度学习模型对医疗实体属性进行抽取。实验结果表明混合深度学习模型CNN-BLSTM对在线医疗文本中医疗实体属性抽取的效果更佳。(5)探讨在线医疗信息抽取结果在疾病关联检测中的应用。本论文对在线医疗信息抽取结果的可能应用领域进行了总结,并选取疾病关联检测进行具体的应用论证。根据疾病医疗实体间的PIP关系类型,以及疾病的时间属性和患者的时间属性,识别疾病与疾病的共现关系和因果关系,最后以医疗健康指南和相关资料对检测到的疾病关联关系进行验证。