论文部分内容阅读
科学数据网格在中国科学院科学数据库的基础上,通过数据网格技术,实现对科学数据库中大量分布式异构数据资源的有效共享。科学数据网格中包含大量分布异构的数据资源,如何快速有效的找到用户感兴趣的数据资源,是信息服务系统需要解决的关键问题。信息服务的目标是为用户提供便捷的信息获取方式,快速定位到用户感兴趣的数据资源,并以有效的方式组织和显示这些数据资源。本文在科学数据网格的背景下,针对传统数据网格信息服务的不足,采用新的信息获取技术和方法来研究数据网格信息服务。
本文研究分析了信息获取领域的Web搜索引擎技术和基于关键词的数据库索引技术,在利用和借鉴信息获取技术成果的基础上,结合Web搜索引擎技术和基于关键词的数据库索引技术,设计了数据网格中结构化数据资源的关键词检索发现系统,能够在科学数据网格这种分布式环境中有效地发现和组织数据库中的结构化数据资源。本文工作的重点是分布式数据库中结构化数据的索引机制和技术,并在分析和利用开源全文检索软件包Lucene的基础上,结合科学数据网格信息服务的需求设计和实现了一个原型系统。
本文取得的成果在有关科研项目中得到初步应用,并为进一步研究基于内容检索的科学数据网格信息服务打下一定的基础。