论文部分内容阅读
国际互联网协会推出了可扩展标记语言XML作为互联网上的一种重要的数据表示和交换标准之一,在电子商务、远程教育、数字图书馆等诸多领域有着十分广泛的应用。XML的模式设计是XML应用的基础,同传统数据库一样,XML模式设计不合理会导致数据冗余和异常操作,甚至产生无效的模式。虽然XML的相关规范对XML模式的基本语法规则做出了约束,但是仍不能满足XML模式规范化的需求。目前,关于XML规范化理论的研究工作还比较分散,而且这些研究的侧重点各有不同,尚未形成比较成熟和完善的XML模式规范化理论体系。随着XML的广泛应用和XML文档数据量的与日俱增,如何规范化XML模式的设计,成为一个十分值得研究的重要课题。 传统的XML函数依赖研究是建立在整个模式的基础上,XML模式越庞大,分析就越困难。为此,在XML模式中引入子模式的概念,子模式是模式中具有自含性的元素和属性定义的集合。在子模式的基础上,采用一种适合XML文档的元组模型,XML元组是模式或子模式映射到XML文档上的一个最简实例,它是分析XML模式的基本工具,不仅适用于分析XML文档或文档局部,而且适用于分析基于同一模式的XML文档集合。通过子模式和XML元组,建立XML函数依赖关系及其推理规则集,XML函数依赖是满足子模式的XML元组中节点集之间的一种数据依赖关系,同时也能够从函数依赖的角度对XML码机制进行描述。 针对XML模式设计中存在的问题,将XML模式的规范化划分为三个级别:一是基本规范化,要求XML的模式定义必须遵循XML的相关规范,基本规范化是从语法的角度来约束XML模式;二是结构规范化,针对XML模式结构上的特点,从结构层面来约束XML模式的设计,使XML模式设计在结构上具有合理性;三是语义规范化,数据依赖是语义的一种重要描述形式,因此,分析函数依赖对XML模式设计的影响,避免数据冗余和操作异常是语义规范化的重要内容。 针对XML模式设计在结构上的异常现象,采用两种结构约束来规范XML模式的设计。一是有效性约束,要求XML模式能够实例化为XML文档,满足有效性约束的XML模式属于第1XML范式,有效性约束确保XML模式定义是有意义的;二是良构性约束,要求XML模式及其子模式都能够实例化为XML文档,满足良构性约束的XML模式属于第2XML范式,良构性约束确保XML模式及其子模式都是有意义的,因此,第2XML范式是比第1XML范式更高的一种范式。同时,还利用元素关系图来分析和判定两种结构范式与规范化的方法。 在语义规范化方面,数据冗余和操作异常现象是XML模式规范化的主要问题,为此,着重分析了基于函数依赖的语义规范化问题。在结构规范化的基础上,通过消除隶属函数依赖,使XML模式达到第3XML范式;通过消除隶属函数依赖和传递函数依赖,使XML模式达到第4XML范式;通过将子模式和XML元组模型应用于现有的一种XML范式,并对其进行扩展,消除重复的被决定因素实例,使XML模式达到第5XML范式。语义规范化是建立在结构规范化基础上的。纵观第1~5XML范式,可以看出低范式到高范式要求越来越严格,反过来高范式是依次属于低范式。通过模式分解和重构的方法,可以使XML模式由低范式向高范式晋升,从而达到模式规范化的目的。 通过对XML模式设计特点的分析,以XML元组和函数依赖为工具,从结构和语义两个方面来规范XML模式的设计,借鉴和整合现有的研究工作,在XML规范的基础上建立了一套适合XML模式规范化的基本理论。