论文部分内容阅读
电子病历是医疗活动的详细记录,包含大量珍贵的临床医学知识。中文医学实体识别能够抽取出电子病历中的医学信息,为医疗质量管理、智慧医疗等研究奠定基础。传统的监督学习方法往往依赖于较大的训练数据量,但构建大规模中文电子病历语料库的成本较高。因此,本文利用主动学习开展中文医学实体识别的研究,可以在一定程度上解决训练数据不足的问题。本文研究主要包括以下三个方面:(1)基于条件随机场的中文医学实体识别算法研究。本文分析了电子病历文本的语言特点,在特征提取部分对条件随机场(Conditional Random Fields,CRF)算法进行了优化,除了常规的上下文特征和字符特征,模型还提取了文本的词尾特征。本文参考I2B2(Informatics for Integrating Biology and the Bedside)2010标注规范制定了中文电子病历标注规范,构建了一个包含300份电子病历的小规模语料库。采用自建语料库对模型进行训练,结果证明,经过改进的CRF算法F1值达到了0.933,比未改进的CRF算法高0.6%;而与其他经典算法(隐马尔科夫模型、双向长短时记忆模型)相比,改进的CRF算法F1值要高出10%以上,证明本文提出的CRF优化算法具有更好的识别效果。(2)基于主动学习的中文医学实体识别算法研究。主动学习通过迭代式的训练,有针对性地选择训练样本,以提高模型的识别效果。本文采用基于池的采样构建主动学习问询场景,并根据电子病历的文本特点提出了一种基于不确定性的采样策略。使用较小的数据集训练模型,结果显示,基于主动学习的实体识别模型F1值比随机采样模型高出3%。证明主动学习模型能够在训练数据有限的情况下,有效提高模型的识别效果。(3)中文电子病历管理分析系统的设计与实现。该系统除了具有存储和管理等基本功能外,还提供了结构化展示和在线标注的功能。不仅能够满足科研人员对电子病历进行数据分析的需求,还为标注语料库的构建提供了方便。