论文部分内容阅读
目的:近年来,人工智能在医疗领域取得了前所未有的进展,对疾病的诊断和治疗具有重要的应用价值。而人工智能的发展,离不开大数据的支持。电子病历作为医学大数据的重要来源,包含了大量的疾病诊疗知识和患者健康数据。其中,实验室检查作为临床信息的重要组成部分,对医生做出疾病诊断和治疗起到了举足轻重的作用。但是,这些信息都蕴含在非结构化的医学文本中,这对计算机读懂实验室检查信息带来了极大的困难。并且,由于检查的表述多种多样,其结构化、标准化本身就具有很大的挑战。除此之外,医学本体主要是以单个术语形式存在,但是实验室检查结果是一般是由“样本、检查对象和异常情况”三个部分构成,所以从检查本体到医学本体之间存在着结构和语义的差距。为了解决这一系列问题,本课题探索了通过建立UMLS编码的实验室检查知识库,并发展相应的算法,将电子病历中非结构化的实验室检查,转换为术语形式的结构化、标准化的表述方式,为后续的研究奠定了基础。方法:①构建知识库。利用相关英文实验室检查名称资源,构建以UMLS术语为核心的实验室检查知识库。②首先将自由文本中的实验室检查转换为结构化的三联体格式“样本—检查对象—异常情况”,再通过本知识库将此逻辑型的实验室检查表述转换为UMLS术语型表达。最终,我们选择在互联网上获取的电子病例作为语料集,评估本知识库及配套算法的效果。结果:我们将453个实验室检查映射到2242个UMLS术语,这453个检查中,72.6%为定量检查,27.4%为定性检查。另外,我们共收集了 966份电子病历,覆盖26个不同科室。以专家标注作为金标准,一共标注出12949个实验室检查结果,其中定量检查10585个,定性检查2364个。①对专家标注的金标准检查结果进行标准化的准确率、召回率和F1值分别为:1.000,0.731和0.845。②首先将这些病例进行预处理,经过算法输出为结构化的三联体格式,一共得到11219个结构化的实验室检查结果,再将这些结构化数据标准化为UMLS编码。统计结果,其中真阳性个数为7262个,准确率、召回率和F1值分别为:0.647,0.767和0.701。③我们使用了 210份病例,针对21个不同科室进行分科室测评,其中算法评估最高的为普外科,其F1值分别为0.933、0.833。结论:本课题构建了一个从逻辑表达表型到术语表达表型的知识库,并基于该知识库,发展了将病例中的实验室检查结果自动结构化、标准化的配套算法工具。该知识库及算法可以成功的将非结构化的实验室检查结果转换为结构化、标准化的术语型表述。这对计算机理解实验室检查结果以及电子病历的二次利用具有重要作用,例如相同特征的患者聚类、机器学习、医学人工智能等都具有重要应用价值。除此之外,该知识库也为我们以后构建实验室检查结果本体奠定了基础。