论文部分内容阅读
随着大数据时代的到来,用户对数据的访问模式已经从传统的类Zipf分布转变成SE(Stretched Exponential)分布。 在 SE分布下,冷数据的比重明显增大,相比于 Zipf分布,用户的访问将会更广泛地分布在冷数据中;此外,相似文件的比例也有所上升,导致文件间的数据块重复度提高。为了提高缓存系统的效率,通过研究数据之间的特征,提出了一种新的缓存替换算法CIH(Cold-In-Hot)。该算法利用冷文件中包含的热文件的数据块,在缓存系统初始化时,先要将存储的文件进行分块重删;再对分块后的数据块使用SHA1算法进行求哈希,得到数据块的指纹,以此作为数据块的唯一标示。在缓存中,文件将以数据块的方式来进行存储,且仅仅只需要存储一份相同的数据块。CIH算法额外考虑了文件分块后数据块的重复度这一因素;通过综合考虑文件的时间、频率和重复度这些因素来选择缓存系统中要替换的数据,以此提高缓存的命中率。 通过测试发现,不管在何种分布下,CIH算法相比较于LRU、LIRS和ARC算法将有着更显著的提升,且在SE分布下的效果更明显;当缓存空间越大或数据集中数据块级重删的效果越好时,CIH算法的效果将越好。