论文部分内容阅读
XML(eXtensible Markup Language)作为一种Internet上的主要的数据表示和交换标准,应用范围非常广,这就对XML数据库的模式提出了更高的要求。和关系数据库类似,如果XML数据模式设计的不好,就会引起插入、删除和更新等异常,由于Web的开放性,XML数据异常的危害性往往远大于关系数据库异常的危害性。XML数据已经成为Internet上的主流数据,虽然现有的研究在存储与发布、查询与优化等技术方面已取得一定的成果,特别是与关系数据的转换技术已相对成熟,但大部分理论仅仅考虑将XML文档数据转换到关系数据,且这种转换只是保持了结构信息,而没有从数据库设计的角度来评价XML数据库模式;另外,部分已有的研究虽然提出了相关的XML范式,但定义的理论仍然存在不完善和欠缺,这必将对今后的Web数据处理带来很大的麻烦,势必造成网络数据大量冗余和不一致的现象。本文从数据库的角度出发,以XML键为中心结合函数依赖FD和多值依赖MVD描述XML数据间的约束;基于主键、副键分析不同情况下的数据冗余,给出相应的规范化规则;并由此定义不同的范式和规范化算法;最后提出一种新的基于键的XML模式到关系模式的转换算法。主要的研究成果如下:●对XML函数依赖约束进一步研究:基于本文的符号理论体系给出XML函数依赖、部分函数依赖、传递函数依赖的概念;定义了XML函数依赖的逻辑蕴涵与覆盖,并给出相应的推理规则和消解规则,得到无冗余的极小函数依赖集;最后给出有效性证明;●参考已有的XML多值依赖定义和XML多值依赖推理规则,给出基于本文符号理论体系的MVD相关的形式化定义;●讨论XML中的键约束,仿照关系数据库中键的概念,以集合的形式给出XML主键和副键的定义,基于键讨论了XML数据冗余,分别定义为“主键无关的冗余”和“副键无关的冗余”;●针对数据冗余的不同情况定义不同的XML范式,并给出消除数据冗余的相应规则;在范式定义和规范化规则的基础上给出XML文档的规范化算法,并给出算法分析和证明;●提出一种新的XML模式到关系模式的规范化转换算法,该算法基于本文所定义的XML键,包括主键、副键及隐键,结合函数依赖的约束,尽量减少属性节点的冗余,使得到的关系模式中的关系表及其属性更加合理。