论文部分内容阅读
本体搜索引擎是本体选择与重用过程中的重要工具,在语义网快速发展的今天,随着本体文档的数量级不断攀升,本体搜索引擎的研究得到了越来越多的关注并发挥了日益重要的作用。近几年来,人们对本体搜索引擎的相关研究问题做了初步的研究,取得了阶段性的成果,主要集中在RDF文档的收集、语义网中的排序问题、本体文档中文本信息索引、海量RDF三元组存储等方面。然而,现有的本体搜索引擎在从收集本体到帮助用户选择与重用本体的过程中依然存在诸多的问题,需要进一步的研究。1998年,Tim Berners-Lee进一步提出了语义网(Semantic Web)的概念,目标是一个使用计算机可理解的方式描述事物的共享平台。
在现有工作的基础上,本文对本体搜索引擎的收集、分析、索引和检索这四个环节中的若干问题开展了深入地研究。论文的贡献主要包括以下四个方面:
(1)给出了发现语义网站点的一组规则,并且提出了语义网站点的一个排序方法。本文定义了一系列启发式规则,对给定的原始数据集中的RDF文档进行分析,发现可能包含新的RDF文档的语义网站点,并提出了语义网站点的排序方法。相对于目前已有的数据收集方式,对语义网站点的发现与排序方法的研究将提高本体搜索引擎数据收集的效率。
(2)给出了基于RDF句子的本体文档分析方法,并且提出了基于RDF句子图的术语排序方法。本文定义了RDF句子的概念,并以RDF句子为基础,提出了一套本体文档的分析方法。在这套分析方法中,本文主要讨论了五个关键的研究点,包括术语定义权威性的判断方法、判断术语类型的一组规则、RDF句子解析算法、基于RDF句子图的术语排序方法及术语的组织方法。这些研究将从不同的方面加强和扩展本体搜索引擎所能提供的功能。
(3)提出了一种基于虚拟文档的术语文本信息索引方法以及一种基于邻居树的结构信息索引方法。本文首先借助于虚拟文档概念,提出了索引术语虚拟文档的方法。将术语的虚拟文档作为术语的文本信息进行索引,可以提高检索的召同率;其次,本文提出了邻居树的数据结构,并通过分而治之的方法,索引术语之间的关系这一重要的语义网结构信息。相对于现有的结构信息索引方法,基于邻居树的结构信息索引更适合于大规模的信息检索系统。
(4)提出了本体文档的摘要方法和词汇的摘要方法。类似于文本摘要方法,本体文档或词汇的摘要方法使用链接分析方法从本体文档或词汇中评价并抽取重要的RDF句子作为摘要,并通过一定的重排序策略降低摘要的信息冗余度。
本文对以上研究内容均开展了相应的实验,并与相关工作进行了对比。实验结果表明,本文中提出的概念和方法是合理的,有效的。这些概念和方法在数据规模、功能性、效率以及用户体验等方面提升现有的本体搜索引擎,从而进一步推动现有本体的选择和重用。