论文部分内容阅读
Web作为一个全球化信息空间,蕴含着具有巨大潜在价值的信息和知识,尽管目前有大量的研究工作关注于Web数据的管理和使用,但是,现有的技术还不能让用户满意.XML为Web提供了一致的数据模型和描述语言,已成为表示Web中多样性数据的事实标准,可以预见Web上的数据将主要以XML形式存在.研究XML数据的管理技术,可以为Web数据的管理提供新的解决途径和方法,对基于Web的应用领域(例如:电子商务、供应链管理、信息检索等)具有重要的应用价值.论文研究了XML数据管理的相关技术,通过分析XML的数据特点,提出一个面向Web的XML数据管理方案,并对其中涉及的关键技术,如存储设计、元数据提取策略、索引技术等方面进行了深入研究,期望对推进本领域的技术发展作一点贡献.论文的主要内容包括如下几个方面:1.提出了一个面向Web的XML数据管理系统WOXDMS的设计方案.针对Web上多样化的数据和多种应用,设计了XML数据引擎,包括XML-关系数据库接口、XML-数据仓库系统接口、XML-面向对象系统接口和XML搜索引擎等四个组成部分,通过这些接口技术,实现了对XML数据的管理,并为Web中各种信息系统之间的信息交流和知识共享提供了接口.2.在分析现有的XML数据的关系存储技术的不足后,该文将系统开销引入XML数据的关系存储设计中,提出了一种基于开销估算的XML数据存储方案.把根据存储开销和查询开销设计数据库模式的方法作为研究XML的关系存储的新思路,改变了以往根据事先设计的固定规则设计关系模式的静态方法.为XML数据在关系数据库系统中的存储提供了一条灵活有效的动态设计方法.3.提出了一种智能的数据模式优化方法.通过人工智能技术中的遗传方法的自适应性和自治性,根据应用需求和系统负载情况,调整数据模式,提高了数据库中模式寻优的自动化程度,为人工智能技术在数据库的应用提供了一个新的切入点.4.提出了一种基于语法规则的XML模式抽取方法.在分析了XML数据语法特点的基础上,采用Chomosky自下向上语法分析的方法,提出了一种下推自动机模型实现信息抽取.这种方法不但能够快速、准确地提取元数据信息,而且容错性强,能够处理不完整XML数据片断.该方法同样适用于类似XML的其它自描述数据的模式获取技术.5.提出了面向Web的XML数据的检索方法.该方法结合文本内容和结构信息,为XML文件设计了增强的索引结构,同时,改进了传统的排序方法和检索方案,提高了查询的精度和查询结果的合理性.