论文部分内容阅读
随着信息技术的发展,人们对信息的关注点不仅仅在数据本身,还需要知道数据的来源和演变等信息。这些数据的历史信息,也称为数据的溯源信息。在科学研究领域,数据溯源有广泛的应用,因为数据质量对科学家来说极其重要。其中有很多产生和收集溯源信息的系统,包括物理天文,化学,生物和海洋气象等研究领域。除此之外,溯源在数据重建,调试跟踪,安全和搜索等方面的应用也开始出现。但是在现有的诸多溯源系统中,溯源数据空间占用远远超过数据本身,在数据的内容与历史当中,处于次位的历史消耗了过多的资源,这就大大的降低了溯源系统的可用性和高效性。为了减少溯源数据的空间占用,而又不影响溯源完整性,Chapman等人提出了因式分解与继承(FAI)算法。FAI只是将溯源信息中的共同信息分析出来,进行优化。论文使用多维压缩算法,除了对溯源信息中共同的信息进行优化处理之外,还对数据本身的身份信息进行优化,同时挖掘溯源信息内在的相似性,将编码之后的溯源祖先信息使用web算法进行优化,进一步降低溯源祖先信息的存储开销,而且保证溯源信息查找性能不受影响,这是从微观层面对溯源数据进行优化存储。另外,从宏观层面来看,溯源数据随着时间无限增长,导致溯源空间和查询时间开销无限增长,针对这个问题,论文以PASS系统为研究实例,采用溯源信息分割,建立索引,压缩分割溯源文件等方式,利用溯源数据的局部性原理,改进了PASS系统的溯源存储和查找机制。实验表明,多维压缩算法无论在存储空间占用,还是身份或祖先信息查询方面都要好于FAI算法;在PASS系统的溯源存储优化中,使用数据库分割,建立索引,压缩分割的主数据库文件等方式,与原有的溯源存储方法比较,在空间占用和查询时间的开销方面都要好于原有的方法。