基于种子概念及改进的凝聚层次聚类算法的水环境本体构建研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chengyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在我国水利信息化的过程中,存在着水利信息化缺乏统一标准,信息表达各异,信息共享不充分,信息系统之间的交流融合性差等问题。这些问题严重制约阻碍了我国水利信息化建设。然而,水环境本体是一个包含水环境术语、定义以及术语间规范关系说明的体系,是水环境学科领域内概念、概念与概念间的相互关系的形式化表达,能够提高水利信息化进程中数据发现、数据同化、资源共享和数据应用的效率。针对水环境本体构建问题,本文运用了语言学、统计学、向量空间模型及聚类算法等原理,使用了一种基于种子概念及改进的凝聚层次聚类算法的水环境本体构建方法。  提取全面完整的领域概念是水环境本体构建的基础。针对如何从大规模语料集中提取水环境领域概念的问题,在数据源预处理阶段引入了水环境领域词典,提高了文本分词精度。同时,考虑到概念提取的完整性及正确率,提出了将种子概念法及 TF·IDF法相结合的概念提取方法。先利用种子概念法从候选术语集中提取概念,之后利用TF·IDF法从剩余的候选术语集中提取概念。最后,实验一共从300篇水环境领域文本集中提取了581个概念,包含447个正确的水环境概念,证明了种子概念法比TF·IDF法具有更高的正确率,但是TF·IDF法作为种子概念法的补充能够帮助提取更多的水环境领域概念。  提取准确可靠的概念关系是水环境本体构建的关键。为方便计算概念相似度,利用概念的TF·IDF值建立了表达概念与文本之间关系的向量空间模型,并利用改进的凝聚层次聚类算法提取概念间的上下位关系。该算法先利用 K-means聚类算法将包含N个概念的概念集聚成K个簇,再利用凝聚层次聚类算法对K个簇内的各个概念进行聚类。在凝聚层次聚类的过程中引入了K-means聚类算法产生的K个聚类中心,通过比较凝聚层次聚类过程中产生的新类中的各个类与聚类中心的距离大小来判断类与类之间的上下位关系。最后,从447个水环境领域概念中提取了443对概念间的上下位关系,并依此建立了一个初级的水环境本体,并在 protégé平台展示,验证了该方法的有效性。
其他文献
砌石拱坝为了防渗通常使坝体由不同材料组成,由于不同的材料具有不同的弹性模量,这类坝可称为成层异弹模拱坝。目前,有限元法已经可以解决这种坝的应力分析问题,但是用拱坝应
半夏Pinellia ternata(Thunb.)Briet.为天南星科半夏属多年生宿根草本植物,以块茎入药,是一种重要的中药材。在气温高于26℃,半夏地上部分随即枯萎,俗称“倒苗”。在实际生产中高温引起的半夏倒苗会直接导致其产量的降低。而半夏高温倒苗的机理还不清楚。为了给研究半夏高温倒苗的机理提供基础,本研究建立了一种经济、简单、高效的半夏高质量总RNA提取技术,通过DDRT-PCR技术及基因
滑坡稳定分析是滑坡整治工程中一个传统的研究内容,也是滑坡研究中最迫切的课题之一,目前已有为数众多的计算方法可用。由于极限平衡方法具有明确的物理含义,为工程界普遍应
随着经济快速发展、产业结构不断调整以及新能源的持续并网投运,我国主要区域电网以及大多数省级电网的峰谷差急剧拉大。对电网而言,减小峰谷差是保障其安全稳定运行的关键;而水电机组以调节能力强、调峰成本低、开停机迅速等众多优点被公认为是优质的调峰电源,尤其是水电能源作为一种可再生洁净能源,已经成为各国大力发展的战略资源而受到高度重视。因此,如何提高水电调峰能力、保障电网安全稳定运行是目前亟需解决的问题。深