论文部分内容阅读
XML作为一种可扩展的标记语言,现已成为数据描述和交换的标准,在开发标记语言、WEB和文档发布、电子商务、网络办公、数据集成等方面得到广泛应用,产生了大量的XML文档。对这些XML文档进行有效的管理以充分利用其中丰富的信息成为现实的需求。
随着对XML的研究日益深入和扩展,用于对XML文档进行管理和查询的存储与查询技术也逐步成熟,各种XML存储方案和XML查询语言纷纷被提出。在文档管理系统中引入XML存储与查询技术,可以克服传统的文档管理系统技术的不足,深入文档内部进行基于文档结构和语义的分析,提供全面准确的检索和灵活的信息反馈,从而对XML文档进行有效管理和充分利用。
本文首先介绍了与文档管理相关的XML知识,包括XML文档的组成部分和XML应用程序接口等。然后,本文综述了各种XML存储和查询技术,重点分析了利用关系数据库存储XML文档的各种方法和XML文档的编码方法。
在上述XML文档存储与查询技术研究的基础上,本文基于XML和关系数据库,设计了一个包含数据管理、解析转换、应用逻辑三层架构,能够解析文档内部结构的XML文档管理系统框架XDMSF(XMLDocumentManagementSystemFramework)。该系统框架在数据管理层采用支持XML的关系数据库系统,使用固定的关系模式存储XML文档;在解析转换层提供XML文档解析转存、XML查询转换、XML文档恢复构造等功能模块,实现了XML存储和查询技术在系统中的应用;在应用逻辑层向用户提供各种文档管理功能的使用界面,并对用户通过这些界面提出的需求进行分析,生成合适的内部指令。
本文讨论了文档管理系统框架XDMSF实现中的几个关键技术:以Xrel中的XML数据存储模式为基础,提出了一个包含5张关系表的XML数据存储模式,只对XML文档中的元素单独编码以减少查询实现时的包含连接,增加文档和文档信息存储表,保证对XML文档的完整存储;在分析比较两种XML应用程序接口标准的基础上,使用DOM接口,编程实现了解析XML文档,用前述固定模式转存到关系数据库;根据Xpath查询语言的语法和XML数据存储模式,定义了Xpath查询表达式到SQL查询语句的转换规则,提出了相应的转换算法,改进了SQL查询中进行包含连接操作时常用的MPMGJN算法,通过判断同名嵌套元素和利用文档id信息,大大减少了不必要的搜索和扫描;借助于主流数据库系统及开发环境对XML的支持和XML数据描述与显示分离的特性,实现了将SQL查询得到的关系数据结果重构为XML文档,并可以根据用户要求,灵活地返回整篇文档或是文档中相关信息。
最后,本文给出了XML文档管理系统框架XDMSF在法院审判信息化中的一个具体应用:审判文书管理系统。