论文部分内容阅读
随着信息科学和计算机技术的发展,电子化医疗数据的迅速增加,电子病历和大量的医疗和科研文件已经成为临床研究重要的数据资源。然而这些数据大部分都是以未经处理或者以异构的文本格式来存储的。正确的理解文本数据的内容需要整合结构化和异构的临床资源、医疗记录和科技文献。概念之间的语义相似性评估是理解文本数据的重要组成部分,能够有效地促进了文本资源的加工、分类和结构化处理。理解文本信息最重要的就是如何决定词汇之间的语义相似性。语义相似性已经成功应用到了许多自然语言的处理当中,例如词义消歧、文档分类和聚类、词汇拼写错误的自动侦测和改正、本体学习和信息检索当中等。在医学领域,相似性计算可以提高对医疗资源的信息检索的准确度,并且可以有效地促进对异构临床数据的集成。语义相似度是计算词汇之间的相似性,即概念分类的接近程度。例如,支气管炎和流感具有相似性,那是因为它们都是由于呼吸系统紊乱造成的。然而,词汇间也可以以非分类的方式相关联,例如利尿剂有助于治疗高血压,即语义相关度。语义相似度和语义相关度都是基于对存在于本体或者领域语料库中语义实例的评估。根据所采用的领域知识,可分为:基于本体分类结构的语义相似度算法、基于概念的信息内容的语义相似度算法和基于上下文矢量的语义相关度算法。本文首先回顾和分析了常用的语义相似度和语义相关度算法,根据预期的准确性、计算复杂性、对知识资源的依赖性等关键参数,来分析每种算法的优势和局限性。其中,基于本体分类结构的语义相似性算法不依赖于对具体语料库和数据的人工预处理,然而它所呈现出的一些限制妨碍了其准确性。研究根据概念的信息内容来重新定义了基于本体分类结构的语义相似度算法,该算法克服了基于语料库信息内容(IC)计算模型的限制,并且保留了基于本体模型的有效性和扩展性,从而提高了评估的准确性。此外,重定义的相似度算法可以直接应用到语义环境下和医学领域当中。然后,研究提出了一种基于比较概念的所有分类知识的语义相似度算法。该算法保留了基于路径算法的简单性,并且尽可能地考虑到概念所有可用的分类实例。由于该算法仅是基于本体结构的,在不依赖于数据适用性和数据预处理的情况下,通过采用额外的语义实例,进而能提供概念之间准确的相似性评估结果。与此同时,保持了较低的计算复杂度和避免了基于路径算法的一些限制。实验通过使用SNOMED CT作为输入本体,根据一个医学术语的评估标准来评估和比较这些算法的准确性。研究过程中还试图通过分析一些其他基于本体知识的语义相似度算法,例如基于属性的语义相似度或相关度算法和混合式语义相似度和相关度算法。此外,本文中所提及的算法都是基于医学领域本体或者医学领域的语料库,这些算法有待在通用领域本体库或语料库中得到评估和应用。