论文部分内容阅读
随着网络的快速发展和网络上各种信息的激增,为了获得理想的有价值的信息,检索技术受到人们越来越广泛的关注。信息检索系统作为网络的一个重要组成部分,在满足用户信息需要的过程中,始终占据着非常重要的位置。传统的搜索技术,主要集中在关键字匹配方面,基本上没有涉及到语义层次。因用户表达不完整,表示差异和词汇孤立等问题,对于返回的海量的查询结果,给用户筛选的工作带来了很大的麻烦,其查全率和查准率往往不能满足用户的要求。为了克服以上存在的问题和不足,语义检索方法,受到了越来越多的重视,也成为研究的热点。语义网的提出和发展,为语义检索的发展提供了基础,语义检索同时也涉及到比较多的概念和实体,而本体具有良好的概念层次结构,因此,将其引入信息检索中的应用研究具,也具有重要的价值。基于以上原因,本文首先阐述了本体相关的知识和理论技术,简单介绍了语义网的概念与体系结构,并在分析传统信息检索模型的基础上,提出一种基于本体的语义检索模型。它与传统的基于关键词的搜索引擎不同,使用了基于概念的匹配方法,返回与查询概念相匹配的文档;它与当前的一些利用本体进行推理的检索方法相比,减少了对本体库的完备性的要求,其面向对象是整个互联网上的资源,也不是某个具体领域,扩展了使用范围,更具实用性。在本体构建过程中,采用骨架法原理,并结合分词统计的方法,通过对计算机领域文档的分析,获取领域概念和实例及其之间的相关性,最终获得计算机领域本体。在概念权重计算方法中,增加了与概念相关的词汇的权重计算,并使用词汇相似度表示相关词汇的权值系数。在相似度计算方面,使用了文档概念匹配系数比值作为相似度,抛弃了以往的向量空间余弦夹角算法。通过使用构建的计算机领域本体,由实验进行比较,在不同相似度标准下,基于本体的语义检索模型相比传统的关键词搜索引擎来说,无论是在查全率还是查准率上,都有了一定的提高,说明基于本体的语义检索模型具有一定的优势。基于本体的语义检索,因语义网、本体论及自然语言处理等技术的发展而发展。在本文在研究过程中,对于本体库的构建、本体与语义检索的结合、权值系数的确定以及对搜索结果的性能评价等,都有很大的研究空间,这也是下一步工作的主要内容。