论文部分内容阅读
传统信息检索方式下,由于信息资源缺少统一的语义描述,用户难以查找到与实际需求相关的资源,难以实现信息资源的语义共享。如何使被管理信息资源具有应用程序可以理解的含义,并根据信息资源所具有的领域知识,实现信息资源的语义检索,提高数字化信息资源的利用率,这些问题是信息检索领域所面临的挑战。 语义万维网(Semantic Web)是万维网的发明人Tim Bemers-Lee倡导的下一代万维网,旨在赋予万维网上所有资源唯一的标识,并在资源之间建立起机器可处理的各类语义联系。语义万维网是对当代万维网的扩展和延伸,能够以一种明确的、形式化的方式来表示信息资源,提高异构系统之间的互操作性,促进知识共享。 本文通过对传统信息检索的基本原理、技术及工具、信息检索发展现状等方面的分析研究,结合万维网的具体特点,提出了基于语义万维网的语义信息检索体系框架,详细描述了语义信息检索系统CataSearch的设计思想和检索流程,并对系统模型的合理性进行了论证。 本文对语义信息检索系统中所涉及的若干关键技术进行了深入的分析研究,提出了有效的解决方案,为CataSearch实验系统的顺利实施奠定了良好的基础,这些关键技术主要包括:领域本体建模、目标文档的获取、语义路径分级和检索结果排序。 最后本文在理论分析的基础上,开发了基于语义网的化学信息检索实验系统CataSearch,实现了其中一些基本的功能,该系统以物理化学领域的催化剂为检索对象,构建了相应的领域本体。通过将各种信息资源向知识本体层映射和语义推理处理,可以充分发掘各资源之间蕴含的关联关系,从而在根本上解决了检索中资源对象语义信息缺乏的问题,满足用户对资源对象语义检索的需求。本系统实现了相对比较复杂的语义检索,提供了语义推理的功能。这些功能都是传统的基于关键字的检索方式所难以实现的,并在实验中验证了CataSearch系统模型的可行性。