论文部分内容阅读
电子病历中包含着大量医疗领域的知识,并且利用以电子病历为代表的临床医疗数据来辅助医疗诊断以及建立用户健康信息模型已经成为了医疗信息学的发展的方向。电子病历中的出院小结和病程记录是最典型的无结构文本,其中记录着患者的临床治疗过程,包含着大量的专业术语,所以在其之上的信息抽取成为了挖掘知识的第一步,其中电子病历中的实体抽取以及实体间关系的抽取是核心内容。电子病历的语料标注需要大量的专业领域知识,所以标注语料的构建存在着较大困难。i2b2评测及其标注语料大大促进了信息抽取在电子病历上面的研究。本文将使用i2b22010年提供的语料来进行研究。本文主要针对电子病历实体关系抽取任务进行研究,研究工作包括以下四个方面内容:(1)对电子病历实体关系抽取任务和评价方法以及使用的外部相关词典数据资源进行介绍(2)介绍关系抽取的一般方法,并选择基本特征,通过CRF模型进行有监督训练,将原问题转化为一个分类问题,完成了baseline系统,完成对误分类实例的分析,进而从特征选择的方向来对实验的效果进行优化。(3)利用深度学习的方法进行特征的优化,将基本的词级别特征组成的上下文特征来进行更高级的表示,来得到更有判别能力的抽象特征。在实验中使用多层稀疏自动编码来进行特征的逐层抽象,对于识别率较低的关系类别的召回率有提升效果,并且整体的F1值也比baseline提升了1.5%,达到86.1%。结果说明深度学习对电子病历中特征的再表示可以得到更有识别力的特征。(4)通过词形信息以及外部词典资源将相似语义的词进行合并,并利用统计分析方法对其中显著特征进行提取来对特征进行进一步优化,对比于深度学习,其时间效率大大提升,整体的F1值较baseline系统提升了2.3%,达到了86.9%。结果说明在同义词合并的基础上,基于统计方法的显著特征抽取在电子病历的实体关系抽取中有着比较明显的效果。综上所述,本文针对于电子病历实体关系任务进行研究,并从特征表示优化的角度进行方法的改进,本文中提出的基于深度学习的关系抽取和基于词特征选择的关系抽取方法相比于基本方法有着一定的效果提升,说明该方法在电子病历领域中的关系抽取是有效可行的。