论文部分内容阅读
近年来,随着科学技术的进步,数据的处理和采集技术也得到突飞猛进的发展,人们对于不确定性数据的关注也越来越多,在不确定性数据中包含离散的不确定和连续的不确定两种类型的数据。在现实社会中,人们描述信息存在各异性、认知事物具有片面性、数据具有动态变化性和物理器件度量存在的差异性等都会造成不确定性数据的产生。在很多实际应用领域中连续不确定性数据被广泛应用,例如军事、经济、金融、电信和物流等领域。传统的关系型数据库具有结构化的特点,不适用于对不确定性数据的管理。而XML具有易扩展、具有灵活性和可自描述性等优点,使其成为结构化和半结构化数据进行交换、存储的主要数据形式之一,并且特别适用于数据抽取和数据集成等领域。当前XML数据管理技术对于确定性数据的管理已经很成熟,但对于不确定性数据管理的研究还很少。连续不确定性的数据通常采用一个连续的概率密度函数表示,用XML文档来存储连续的概率密度函数就构成了连续不确定XML,如何对其进行管理受到研究者们越来越多的关注。首先,针对已有不确定XML数据的编码方案(区间编码和前缀编码)存在的诸多问题,例如编码过程需要两次遍历文档树、编码值占用的存储空间过大以及不支持更新等。本文提出一种新的基于p-文档模型的素数编码方案CUPE(continuous uncertain prime encoding),编码过程只需一次遍历文档树,重复利用小素数编码,支持文档的更新,克服了以上缺点。其次,考虑基于归并的不确定XML的查询处理算法在匹配过程中需要开辟大量的堆栈,浪费存储空间,查询效率低。提出一种新的非归并的匹配算法CUTwigList,该算法利用节点的编码进行结构关系的判定,判定完成后建立相关链表存储中间结果,匹配过程不需要归并,节省了时间与空间,提高了查询的效率。最后进行了大量的对比实验,在时间性能、空间性能和更新效率方面,将提出的CUPE编码算法分别与区间编码算法、前缀编码算法进行对比;设定不同的查询条件,将提出的非归并的CUTwigList与归并的算法进行对比,并对最终的实验结果进行了详细的分析,证明了所提出的两种算法具有高效性。