论文部分内容阅读
互联网应用的日益普及化和云计算的浪潮,给我们的生活中带来了非常多的高效网络应用,其中就包括云存储类应用,使得无附加硬件化的备份服务得到了实现。在云存储网络备份应用得到极大发展,数据存储量爆炸式增长的今天,如何解决这类应用面对的越来越大的存储压力,已经成了一个重要课题。解决存储问题的一个重要技术便是消重技术。传统的消重技术在灾难备份系统中已经得到了非常广泛的应用,单机式离线式备份在这样的应用场景中表现出色,但是在新的云存储环境中,传统消重技术面临着瓶颈。消重技术依赖于数据块指纹的对比与查询。传统的消重技术大通过利用Bloom filter这样的技术来降低单机消重元数据查询表的内存占用情况。在云存储环境中,由于用户的持续增长,用户存储数据的持续增长,Bloom filter本身将会趋于饱和,从而导致消重指纹元数据表将会被不断的进行二级查询命中,将消重指纹元数据表进行结构上的优化使得其能完全进行内存命中成了提高系统效率的关键。引入分布式技术来进行消重则可以帮助实现系统的线性扩展。云存储环境中的应用在用户的使用过程中存在相应的使用偏好与兴趣。不同的用户可能存在相同的存储兴趣,即相同的存储内容和存储偏好。由于全局消重可能在分布式环境中出现的计算量消耗,挖掘相应的用户存储兴趣,把兴趣相同的用户进行聚类,在聚类内部进行数据消重可以降低相应的消重计算量,在尽量减少消重效果损失的前提下提高消重的效率。 本文首先提出了基于前缀压缩后缀快慢表缓存的消重元数据管理结构表,通过挖掘指纹元数据的相同前缀,并将二级表按照80/20法则进行快慢表存储优化,优化了指纹元数据表的结构,使得其内存占用率进一步降低。之后通过采用用户存储关联度分析算法,可以用户之间的存储兴趣关联程度挖掘出来,并通过使用存储兴趣关联程度这个量化值来进行用户群的切分,实现了存储兴趣聚类。这样通过在兴趣相同用户群中进行数据消重,可以避免全局消重带来的性能问题和计算压力,同时由于兴趣不同的用户存储内容关联度不高,可以防止没有使用全局消重技术带来的消重效果的损失。本文提出了采用min-hash进行单个用户与用户群之间进行存储兴趣匹配的快速关联度匹配算法,可以处理有些用户由于存储兴趣不断改变从而产生的用户群中单个用户需要迁移群组的问题。最后,我们抽象出了一套异构数据源混合的key-value存储平台,可以支持多数据源的缓存功能,为消重与机器学习等应用场景提供内存存储服务,将数据放置于内存而不是磁介质存储设备可以加速这些应用。实验表明,前缀压缩后缀快慢表缓存技术可以大大的降低消重指纹元数据表的内存占用率,通过这样的优化结果我们最多可以将原表压缩到35%的体积,从而避免不必要的磁盘命中。测试用户存储关联度分析算法,我们可以很好的将实验数据集中的用户进行群切分,得到相关联的用户群。快速关联度匹配算法可以检测出用户存储兴趣的变化,给他们提供了存储群组迁移的机会。系统平台广泛采用了异步通信,异步处理等较为高效的技术,使得系统在高并发环境中有着比较高的运行效率。