领域本体构建方法及实证研究

来源 :武汉大学 | 被引量 : 10次 | 上传用户:hgs19741022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识是世界经济蓬勃发展的重要因素,是人类社会文明传承和发扬的源泉。随着全球步入知识经济时代,知识已经成为国家经济发展、社会进步的可循环、利润回报非常丰厚的资源。互联网为信息的传播提供了广阔的平台,但却为广大用户搜索准确信息制造了障碍。网络正在飞速地蔓延到世界的各个角落,如何在浩瀚的信息资源中快速地摄取到最准确的知识是我们不得不面对的一个共同问题。检索效率随着检索技术的更新不断提升,但是检索结果始终达不到用户的预期。如何规范地组织知识成为人们关注的焦点。本体的出现为知识组织带来了契机。自从本体被引入到信息科学、人工智能领域,其在知识组织方面显现出独特的优势。随着各个学科的研究者对本体产生兴趣,本体逐渐被引入到医学、军事学、地理科学、农学等多个学科,本体的研究呈现百花齐放之势。经过10多年的不懈努力,本体的理论、方法和应用都得到了极大的丰富。但是,本体构建方法的多样性、领域区分性为本体的重用、共享带来了困难。只有规范本体构建方法,才能保证本体构建流程的顺利进行以及实现大规模本体构建。对本体构建方法的对比、总结并加以改进,能够在提高现有方法构建效率的基础上规范方法的执行,从而使得本体在知识组织方面的优势最大化,为知识的存储、分析、检索提供强有力的保障。本文以本体构建抽象方法为指导,把本体构建工作划分成概念获取、关系获取和形式化三个部分,在对叙词表和文本两种不同数据源进行综合运用的基础上,对文本中的信息进行了基于组词规则和N-gram算法的概念提取、基于扩展互信息和上下文信息的概念过滤、基于加权算法和信息熵的核心领域词汇的筛选、基于空间向量相似度的等级关系提取、基于语法规则和扩展关联规则的非等级关系提取和基于Jena的形式化处理,最后以测绘学叙词表和文献为例,基于以上方法构建了测绘学领域本体,对方法的可用性进行了实证研究。通过对基于语言学和统计学的概念提取方法以及基于字和词的相似度方法的对比,对互信息和关联规则方法的扩展,以及对加权算法和信息熵的综合,本文提供了一套构建本体的方法,并对现有的方法进行了改进,不仅丰富了本体构建的方法,而且为形成本体构建的一般方法提供参考。本文包括七章,除去引言和结论展望外,剩下的五章主要分为三个部分:第一部分(第l章)探讨本体及相关理论。首先对信息科学领域中本体的概念进行描述和界定,讨论了本体在知识描述、知识共享方面具备的特征;列举并描述了通用本体、顶级本体和领域本体等九种不同类型的本体;阐述并解释了概念、关系、函数、公理和实例五个本体的基本元素;详细描述了XML、RDF和OWL三种本体描述语言的规范、标签以及三者之间的联系;描述并评价了IDEF5法、TOVE法、骨架法和METHONTOLOGY法四种常见的本体构建抽象方法和规则匹配、N-gram算法、互信息、信息熵、关联规则和相似度六种常见的本体构建具体方法;最后对Protege和Jena两种构建工具及其优缺点进行了阐述。第二部分(第2、3、4章)分别对本体构建的概念提取、关系提取和形式化三大块进行方法探讨和实验分析。其中:第2章利用字符串函数和关系二维表的数据结构匹配和存储叙词,利用叙词表的编码规则实现映射,完成叙词由文本到数据库的结构转换。通过对叙词表切词和词性标注,提取最常用的叙词组词规则,利用叙词组词规则和N-gram算法提取文本概念,并描述了两种方法的算法,分析了两种方法计算的结果,将两种结果综合起来作为下一阶段的数据;对提取的概念进行了上下文和互信息过滤,并把两词互信息扩展到三、四词;最后对信息熵进行扩展,加入邻近词汇平均值后与加权算法一起筛选领域核心概念。第3章利用关系二维表将叙词表中的属、分和族等级关系进行结构转换。在叙词表等级关系的基础上,通过相似度算法邻近词汇的筛选以及基于字和词两种相似度的计算结果对比,将相似度阈值分成同级类平均相似度、父子类平均相似度和同父类的子类平均相似度三种,文本中的概念以这三种阈值为标准添加进本体层次模型。将用和代两种非等级添加进关系二维表。利用中文造句的语法规则分别把主语、谓语和宾语提取出来,并在关联规则的基础上加入平均值对三元组进行筛选,最后得到本体所有的三元组。第4章深入探讨了本体、OWL和语义之间的关系,指出具有语义的数据是指能够减少用户参与,增加数据内容自动分析的数据;论述了选择本体描述语言的方法;分析了手工和自动两种本体形式化方法;最后利用Jena对测绘学领域本体进行形式化处理。第三部分(第5章)构建了本体构建系统,提出了系统在分词、概念获取、关系获取和形式化方面的具体需求;对系统进行了总体设计和详细设计,总体设计中把系统分为概念提取模块、概念筛选模块、等级关系提取模块、非等级关系提取模块和领域本体形式化模块五大模块;详细设计中对每一模块的系统界面和功能进行了详细的论述。本文系国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(批准号:11&ZD152)的组成部分和研究成果之一。
其他文献
<正>中坤集团购买冰岛国土被拒中国地产商、中坤集团董事长黄怒波打算斥资800万美元提出购买冰岛东北部格里姆斯塔迪尔地区300平方公里土地75%的所有权,用于开发生态旅游项目
《不真空论》为鸠摩罗什弟子僧肇所著。僧肇立足"不真故空"的命题,在批判总结六家七宗观点的基础上,对般若空义作出了既准确又富于创造性的解释和发挥。他认为心无、即色、本
为了改善环境,促进我国加快经济转型,以31个省、市、自治区为样本,对各省的低碳经济发展水平进行综合评价分析。在选择评价指标时,利用各初始指标对碳排放量的相关分析筛选出
以磺化聚苯乙烯棱壳结构凝胶粒子为模板,采用化学吸附和化学还原的方法,合成了聚苯乙烯/镍核壳复合粒子。讨论了pH值、温度、溶剂对复合粒子的影响。采用TEM、XRD对其结构、形貌
目的:探讨老年人首次急性缺血性卒中的预后,用来评价哪些因素与不良预后有关,以决定我们在临床治疗中重点干预哪些因素,在最大程度上改善患者的预后。方法:选择2009年8月-2011
有一个女人,婆婆生前对她很刻薄,婆婆死了,她便到处说婆婆的坏话,说婆婆怎么虐待她,怎么对她不好,怎么不把她当人看待,并且不停地诅咒自己的婆婆。开始的时候,人们同情她,愿
期刊
小学道德与法治是一门重要的课程,对学生良好道德品质的塑造有着重要作用,要想有效推进素质教育改革,确保新课程改革的效果,就必须转变以往落后的教学观念和教学模式,努力该
社会主义市场经济是否存在剩余价值,这不只是一个重大的理论问题.笔者通过考察剩余价值的理论基础和社会属性,论证了社会主义市场经济中也存在剩余价值.肯定剩余价值在社会主
目的:观察针灸结合推拿治疗脑卒中后遗证的临床疗效。方法:运用针刺、艾灸、推拿疗法治疗脑卒中后遗证,按1次/d,5次为一疗程。结果:82例脑卒中后遗患者应用针刺、艾灸、推拿疗法治
产业集聚是经济发展过程中所表现出的一种空间聚集和地方专业化的经济现象。利用区位商LQ系数和产业地理集中指数对安徽省茶产业2002~2006年的集聚情况进行效益分析。结果表