论文部分内容阅读
随着互联网的迅速发展,数据规模不断扩大,数据形式趋于多样化,共享范围愈加宽广,各行各业逐渐形成庞大、复杂和异构的数据环境。这些数据环境中的数据可能是由原始采集得到,也可能是经过多次复制、转换和传播而来,人们开始关心数据从何而来,数据从原始创建到当前输出经历哪些变迁过程,以及数据的质量和可靠性。数据起源的研究由此而来,同时,数据演化过程中不可避免产生不确定性,特别是当原始数据本身存在不确定性时,结果数据的不确定性来源和不确定性大小成为不确定数据研究的重点。而目前数据库领域中,过往的研究大多针对确定性数据,本文针对不确定数据的起源展开了研究,研究了不确定数据的起源追踪方法、评价结果数据不确定大小的算法。主要的研究工作主要包括如下几个方面:(1)研究了数据库领域中数据起源的相关概念和算法,重点分析和比较了具有代表性的几种起源模型的特点,提炼出它们之间的差异和相互关系。(2)针对不确定数据的特殊性,研究得出Why起源和How起源均可形成一种最小证据集,并以此来追踪不确定数据的不确定来源和评价不确定大小。研究最小证据集的形成算法和利用最小证据集进行可信度计算的算法,经过在Trio上的实验,验证了算法的有效性。(3)研究了不确定数据起源追踪系统的设计,通过设计有效的起源存储模式,归纳出了起源的传播规则,并对传统的关系代数和SQL语言进行了扩展,最后给出了不确定数据的起源计算和可信度计算算法的具体实现。