论文部分内容阅读
快速发展的医疗信息系统产生了海量的临床文本,它们用文本形式记录了大量的健康信息,是改善临床护理和支持研究的宝贵信息来源,同时这些海量、非结构化数据也给自动管理和高效利用提出了巨大的挑战。影像报告是一种典型的临床文本,从非结构化的影像报告中抽取医疗概念,可以为病历分类、精细患者分群以及自动问答系统等提供支持。中文影像报告作为一种专业临床文本,具有鲜明的语言特点和更为复杂的语言形式,同时中文临床文本缺少公开标注语料,所以相比较通用领域文本,中文影像报告的分析应用面临更大的困难。本文针对中文影像报告,研究命名实体识别的方法,主要工作包括以下几个方面:第一,参考I2B2标注体系,结合中文影像报告的特点,在医务人员的指导下,本文制定了影像报告命名实体识别的标注方案,分别建立了规模为39954个字符的分词标注与分字标注的影像报告语料库。第二,根据手工创建的影像报告标注语料库,以双向循环神经网络为基本框架,本文基于LSTM单元、GRU单元和条件随机场设计了三种不同的中文影像报告命名实体识别模型。第三,本文通过影像报告语料库训练构建的中文影像报告命名实体识别模型,并通过实验对模型的性能进行评估和分析;实验的结果表明,相比较基于CRF的传统模型,双向循环神经网络在中文影像报告实体识别中有更好的适应性;此外,相比较分词标注方法,分字标注获得更好的实验效果。最后,本文设计并实现了一个中文影像报告命名实体识别的原型系统,直观展示了中文影像报告命名实体识别的过程和结果。