论文部分内容阅读
中医学信息化研究的主要目的,是通过对中医知识的标准化、规范化处理,促进中医学在世界医学中得到进一步的发展。中医临床知识的研究则是中医学信息化研究的重要组成部分,其中,中医临床术语的标准化、规范化处理是中医临床知识研究的主要内容,也是目前人们关注的热点课题之一。中医临床术语研究可分为“术语实体”研究和“术语语义关系”研究两个方面。就目前研究现状分析,术语实体研究方面已经有一定成果,但在语义关系研究方面却还略显不足。对此,本文将运用本体技术,从关系模式、句法模式、聚类模式等层面,对中医临床术语之间的语义关系进行分析和探索,给出相关规则和方法,为进一步展开研究建立基础。研究主要内容包括: (1)提出一种基于多百科结合互补的方法,用以构建适合语义关系研究的中医临床语料库。该方法利用百科搜索引擎URL的构成特点,根据已知具有语义关系的术语对,获取术语实体对应的词条内容。使用正则表达式,从解析处理后的词条网页内容中提取蕴含语义关系的有效语句,作为语料。实验显示本方法构建的中医临床语料准确率为91.5%,召回率为71%。 (2)结合同义词词林的特性,对句法模式的泛化方法展开研究。在原有最长公共子序列的句法模式泛化方法的基础上,结合同义词词林,计算两个词的相似度作为泛化依据,得到一种新的句法模式泛化方法。该方法能够从语义的角度判断两个不同的词是否可以在基元内合并,为下一步的抽取聚类算法特征提供基础。该方法在不同的语义关系语料下的召回率均值为93%。 (3)采取聚类和句法模式相结合的方法,对中医临床术语实体之间的语义关系进行归类,并根据聚类结果重新构建语义框架。该方法通过提取实体周围的特征词,利用K-MEANS++算法,对特征词转化的特征向量进行首轮聚类,并以此为基础,在同一簇中使用基于词典的句式泛化方法形成类句法模式(简称句式)。随后,对句式进行调整,使用最近原则自动判断语料中每一个句子所具有的句式,根据句式特征进行第二轮聚类,最终得到聚类结果。实验结果表明,该方法对本文构建的新语义关系分类框架下的分类准确率为88.23%。