基于聚类的中医临床术语语义关系的研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:wodeking2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医学信息化研究的主要目的,是通过对中医知识的标准化、规范化处理,促进中医学在世界医学中得到进一步的发展。中医临床知识的研究则是中医学信息化研究的重要组成部分,其中,中医临床术语的标准化、规范化处理是中医临床知识研究的主要内容,也是目前人们关注的热点课题之一。中医临床术语研究可分为“术语实体”研究和“术语语义关系”研究两个方面。就目前研究现状分析,术语实体研究方面已经有一定成果,但在语义关系研究方面却还略显不足。对此,本文将运用本体技术,从关系模式、句法模式、聚类模式等层面,对中医临床术语之间的语义关系进行分析和探索,给出相关规则和方法,为进一步展开研究建立基础。研究主要内容包括:  (1)提出一种基于多百科结合互补的方法,用以构建适合语义关系研究的中医临床语料库。该方法利用百科搜索引擎URL的构成特点,根据已知具有语义关系的术语对,获取术语实体对应的词条内容。使用正则表达式,从解析处理后的词条网页内容中提取蕴含语义关系的有效语句,作为语料。实验显示本方法构建的中医临床语料准确率为91.5%,召回率为71%。  (2)结合同义词词林的特性,对句法模式的泛化方法展开研究。在原有最长公共子序列的句法模式泛化方法的基础上,结合同义词词林,计算两个词的相似度作为泛化依据,得到一种新的句法模式泛化方法。该方法能够从语义的角度判断两个不同的词是否可以在基元内合并,为下一步的抽取聚类算法特征提供基础。该方法在不同的语义关系语料下的召回率均值为93%。  (3)采取聚类和句法模式相结合的方法,对中医临床术语实体之间的语义关系进行归类,并根据聚类结果重新构建语义框架。该方法通过提取实体周围的特征词,利用K-MEANS++算法,对特征词转化的特征向量进行首轮聚类,并以此为基础,在同一簇中使用基于词典的句式泛化方法形成类句法模式(简称句式)。随后,对句式进行调整,使用最近原则自动判断语料中每一个句子所具有的句式,根据句式特征进行第二轮聚类,最终得到聚类结果。实验结果表明,该方法对本文构建的新语义关系分类框架下的分类准确率为88.23%。
其他文献
虚拟现实(Virtual Reality,简称VR)是由计算机生成一个具有多种感官刺激的虚拟世界,能给人以沉浸感,并且人能与这个虚拟的世界进行交互。在这个多感官感知的系统中,目前的技
培育青少年志愿服务意识有助于构建和完善社会主义核心价值体系、拓展学校德育教育途径进而促进青少年的自我教育和自我发展.近年来,阜阳市在培育青少年志愿服务意识方面取得
移动数据库是移动计算环境中的分布式数据库,由于移动数据库的应用大都嵌入到诸如掌上电脑、PDA、车载设备等移动通信设备中,故移动数据库也称为嵌入式移动数据库。嵌入式设
流体现象(如烟雾、火焰、云彩、波浪、汽泡、爆炸等)是日常生活中十分普遍的景象。流体模拟广泛应用于电影特效、影视广告、网络游戏等图形学相关领域中,是计算机图形学中一
无线Ad Hoc网络是由移动节点组成的多跳、临时性自治网络,具有不依赖于现有的通信设施、配置快速灵活等特点,在军事和民用领域得到越来越广泛的应用。然而,作为一种特殊形式
印刷电路板(PCB,Printed Circuit Board)是各种电子元件的支撑体。随着技术的不断发展和工业的持续进步,PCB制造技术朝更高密度发展,从而也使其的质量检验成为一件非常困难的
国际民航组织鉴于在新航行系统的实施与发展过程中出现的问题和对未来航行系统的发展趋势,提出了空中交通管理信息服务的自动化、一体化的要求。空中交通管理信息服务的自动
由于金融帐户之间的交易所天然具有的转入、转出方式,具有相互交易的一个交易团体的交易数据通过转入帐户和转出帐户之间的关联,形成了一个交易的网络,可以非常直观的用图的
时间表问题是一类特殊的资源调度问题,广泛应用于学校课程和考试的时间安排、各类大型会议、体育比赛、航班(火车、飞机、轮船等)时刻表的制定等。本文以大学课程安排时间表
飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供