论文部分内容阅读
随着Internet的发展,XML正逐渐成为数据表示和信息交换的公认标准.如何高效存储和查询以M字节、G字节、T字节以及P字节计的大规模XML文档数据,正受到学术界和工业界研究人员的极大关注.毫无异议,并行数据库技术为上述问题提供了有效且可行的解决手段.正是在这种研究背景之下,我们比较深入地研究了与并行XML数据库相关的一些问题.首先,提出了两类物理分片策略:基于数据模式的物理分片策略以及基于查询频率的物理分片策略.其次,在各种分片基础之上,探讨了正则路径表达式RPE的并行查询处理问题,提出了两种并行查询处理方法:并行管道路径连接(PPPJ)查询处理方法和并行路径合并(PPM)查询处理方法.前者适用于基于节点模式的节点实例轮转法,后者适用于基于路径模式的路径实例均衡法和基于查询负载均衡的媒介节点分片方法.然后,特别针对RPE查询中比较复杂的结构化查询,如祖先-后代查询以及小树杈twig查询,提出了一种新的紧凑祖先树索引CAT来提高复杂结构化查询的查询效率.接下来,针对查询间的并行性给出了四种处理机分配调度策略,即平均分配法、比例分配法、组合分配法以及串行分配法,并分析了在不同处理机个数下它们各自所耗费的代价,以便使一个查询任务中的每个查询都能分配到最佳数目的处理机,从而使总的查询响应时间达到最小.最后,基于上述各种分片策略、并行查询机制以及各种索引等实现了一个并行XML数据库原型系统PXBASE,该系统对大规模XML文档实现了数据装载和数据划分,并能实现各种路径表达式查询.无论是查询条件的输入还是查询结果的输出,都可通过该系统提供的GUI与用户直接进行交互.