论文部分内容阅读
随着半结构化的概率数据的广泛应用,针对半结构化概率数据的理论研究是必要的。XML数据成为一种新的网络应用的数据形式,成为Internet中进行数据交换和表示事实上的标准的形势下,研究基于概率的XML数据理论具有较强的理论研究意义和应用价值。本文针对概率XML数据的管理问题,借鉴概率关系数据管理的思路和方法,对概率XML数据的管理理论涉及到的概率数据在XML数据中的表示方法、概率关系数据与概率XML之间的转换问题、建立概率XML代数操作集合、XQuery查询语言的概率操作扩充函数和元素节点的查询算法等几个方面进行了较系统的、较深入的研究。由于基于关系的概率数据是一种经典的概率数据形式,研究基于关系的和基于概率的XML数据的转换理论是有必要的。XML树和XML图是两种常用的XML数据模型,文中把基于概率的XML数据表示为概率XML数据树,提出了基于关系的和基于概率的XML数据的双向转换算法,该算法分为两个部分,一是模式转换,二是数据转换。在研究转换策略的基础上,提出了概率关系模式与概率XML模式PDTD的双向模式转换算法,并提出了概率关系数据转换为概率XML数据树和概率XML数据转换为概率关系数据两个数据转换的算法。在理论上对算法的正确性和完备性进行了证明,并通过与概率XML数据和概率关系数据的转换对比验证了该算法的正确性和完备性。设计概率XML数据的查询代数操作集合是实现概率XML数据库查询及查询优化的基本方法。将概率XML单元树作为概率XML数据代数的基本操作单位,其模式为概率XML模式树,设计了对遵循概率XML树模型的概率XML数据的集合的基本操作集合。给出了基于解析的路径表达式集合的各个基本操作的算法,在理论上对算法的正确性和完备性进行了证明,并通过实例验证了该算法的正确性。Xquery语言是XML数据的有效的查询语言之一,为了支持概率XML数据的查询,扩展Xquery的函数是一种简单的概率XML数据查询的实现方式。提出了扩展XML的查询语言Xquery函数的概率化的函数形式eXquery,按照扩展Xquery函数的功能分类的形式,设计了与路径表达式有关的函数、与节点有关的函数和与树类型有关的函数等。元素节点概率的查询是概率XML数据查询的主要内容之一,研究概率XML数据树的元素节点概率算法是必要的。在分析查询策略的基础上,提出了基于可能世界原理的查询算法和基于路径表达式集合的查询算法两大类算法,在理论上对该算法的正确性和完备性进行了证明,并通过实例验证了该算法的正确性,分析了算法的概率XML数据大小的适用性。