电子病历实体关系抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dudstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历中包含着大量医疗领域的知识,并且利用以电子病历为代表的临床医疗数据来辅助医疗诊断以及建立用户健康信息模型已经成为了医疗信息学的发展的方向。电子病历中的出院小结和病程记录是最典型的无结构文本,其中记录着患者的临床治疗过程,包含着大量的专业术语,所以在其之上的信息抽取成为了挖掘知识的第一步,其中电子病历中的实体抽取以及实体间关系的抽取是核心内容。电子病历的语料标注需要大量的专业领域知识,所以标注语料的构建存在着较大困难。i2b2评测及其标注语料大大促进了信息抽取在电子病历上面的研究。本文将使用i2b22010年提供的语料来进行研究。本文主要针对电子病历实体关系抽取任务进行研究,研究工作包括以下四个方面内容:(1)对电子病历实体关系抽取任务和评价方法以及使用的外部相关词典数据资源进行介绍(2)介绍关系抽取的一般方法,并选择基本特征,通过CRF模型进行有监督训练,将原问题转化为一个分类问题,完成了baseline系统,完成对误分类实例的分析,进而从特征选择的方向来对实验的效果进行优化。(3)利用深度学习的方法进行特征的优化,将基本的词级别特征组成的上下文特征来进行更高级的表示,来得到更有判别能力的抽象特征。在实验中使用多层稀疏自动编码来进行特征的逐层抽象,对于识别率较低的关系类别的召回率有提升效果,并且整体的F1值也比baseline提升了1.5%,达到86.1%。结果说明深度学习对电子病历中特征的再表示可以得到更有识别力的特征。(4)通过词形信息以及外部词典资源将相似语义的词进行合并,并利用统计分析方法对其中显著特征进行提取来对特征进行进一步优化,对比于深度学习,其时间效率大大提升,整体的F1值较baseline系统提升了2.3%,达到了86.9%。结果说明在同义词合并的基础上,基于统计方法的显著特征抽取在电子病历的实体关系抽取中有着比较明显的效果。综上所述,本文针对于电子病历实体关系任务进行研究,并从特征表示优化的角度进行方法的改进,本文中提出的基于深度学习的关系抽取和基于词特征选择的关系抽取方法相比于基本方法有着一定的效果提升,说明该方法在电子病历领域中的关系抽取是有效可行的。
其他文献
本文对柔性体仿真中碰撞技术进行了研究。文章在深入研究现有碰撞检测算法的基础上,以织物仿真为背景,在质点一弹簧模型的建模基础上,采用层次区域分割并融合,AABB层次包围盒的方
随着视频压缩技术和网络传输技术的发展,视频由于具有直观、信息量大等优点,成为了人们获取信息的主流方式。如何对视频数据进行有效的组织和管理以便于人们能够方便快捷地找到
随着网络规模的不断扩大,因特网流量飞速增加,如何从海量的信息中快速有效地获取所需要的内容成为人们研究得越来越多的一个课题。信息过滤系统主要面向骨干网节点,系统功能
降雨是引起土壤侵蚀的主要原因之一,为了减少降雨侵蚀造成的危害,构建降雨侵蚀预测模型已经成为我国水土保持工作的一个研究重点。降雨侵蚀预测模型是土壤侵蚀研究的重要部分
随着Web服务的兴起和Web服务技术的不断发展、相应的标准不断出现,为整个网络环境提供了相对松散的计算平台。基于Web服务的软件开发模式也在不断完善,其中,面向服务架构SOA(Ser
随着存储技术的发展,人们对信息存储可靠性的要求越来越高。磁盘阵列在提供高可靠性的同时,还能通过异步访问各成员磁盘,提供高带宽和大容量,受到使用者们的青睐。磁盘阵列有
随着Internet技术的飞速发展和广泛应用,一种新的计算模式—网格计算蓬勃发展起来。网格作为基于Internet的协同资源共享和问题求解环境,推动Internet发展到了新的阶段。在网
时间规划问题,以时间关系约束作为推理依据,是人工智能所涉及的特殊的规划领域。现实生活中,很多问题都属于这一范畴,运动会竞赛日程表的编排就是其中比较典型的一个。现阶段,国内
数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它是一门新兴的交叉学科,汇集了来自机
近年来,数字信号处理器(DSP,Digital Signal Processor)发展十分迅速。面对DSP上日益复杂的应用系统和市场的紧迫压力,DSP软件开发人员面临着严峻的危机和挑战。传统的开发方