一种高效分布式消重技术的设计与系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:a361583800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网应用的日益普及化和云计算的浪潮,给我们的生活中带来了非常多的高效网络应用,其中就包括云存储类应用,使得无附加硬件化的备份服务得到了实现。在云存储网络备份应用得到极大发展,数据存储量爆炸式增长的今天,如何解决这类应用面对的越来越大的存储压力,已经成了一个重要课题。解决存储问题的一个重要技术便是消重技术。传统的消重技术在灾难备份系统中已经得到了非常广泛的应用,单机式离线式备份在这样的应用场景中表现出色,但是在新的云存储环境中,传统消重技术面临着瓶颈。消重技术依赖于数据块指纹的对比与查询。传统的消重技术大通过利用Bloom filter这样的技术来降低单机消重元数据查询表的内存占用情况。在云存储环境中,由于用户的持续增长,用户存储数据的持续增长,Bloom filter本身将会趋于饱和,从而导致消重指纹元数据表将会被不断的进行二级查询命中,将消重指纹元数据表进行结构上的优化使得其能完全进行内存命中成了提高系统效率的关键。引入分布式技术来进行消重则可以帮助实现系统的线性扩展。云存储环境中的应用在用户的使用过程中存在相应的使用偏好与兴趣。不同的用户可能存在相同的存储兴趣,即相同的存储内容和存储偏好。由于全局消重可能在分布式环境中出现的计算量消耗,挖掘相应的用户存储兴趣,把兴趣相同的用户进行聚类,在聚类内部进行数据消重可以降低相应的消重计算量,在尽量减少消重效果损失的前提下提高消重的效率。  本文首先提出了基于前缀压缩后缀快慢表缓存的消重元数据管理结构表,通过挖掘指纹元数据的相同前缀,并将二级表按照80/20法则进行快慢表存储优化,优化了指纹元数据表的结构,使得其内存占用率进一步降低。之后通过采用用户存储关联度分析算法,可以用户之间的存储兴趣关联程度挖掘出来,并通过使用存储兴趣关联程度这个量化值来进行用户群的切分,实现了存储兴趣聚类。这样通过在兴趣相同用户群中进行数据消重,可以避免全局消重带来的性能问题和计算压力,同时由于兴趣不同的用户存储内容关联度不高,可以防止没有使用全局消重技术带来的消重效果的损失。本文提出了采用min-hash进行单个用户与用户群之间进行存储兴趣匹配的快速关联度匹配算法,可以处理有些用户由于存储兴趣不断改变从而产生的用户群中单个用户需要迁移群组的问题。最后,我们抽象出了一套异构数据源混合的key-value存储平台,可以支持多数据源的缓存功能,为消重与机器学习等应用场景提供内存存储服务,将数据放置于内存而不是磁介质存储设备可以加速这些应用。实验表明,前缀压缩后缀快慢表缓存技术可以大大的降低消重指纹元数据表的内存占用率,通过这样的优化结果我们最多可以将原表压缩到35%的体积,从而避免不必要的磁盘命中。测试用户存储关联度分析算法,我们可以很好的将实验数据集中的用户进行群切分,得到相关联的用户群。快速关联度匹配算法可以检测出用户存储兴趣的变化,给他们提供了存储群组迁移的机会。系统平台广泛采用了异步通信,异步处理等较为高效的技术,使得系统在高并发环境中有着比较高的运行效率。
其他文献
近年来,云计算作为一种新型的计算范型,发展越来越迅速,规模也越来越大。然而,人们对于云计算安全性方面的担忧也越来越成为阻碍云计算发展的主要障碍之一。云环境高度复杂和多变
隐写术是信息隐藏领域用来秘密传递消息的一种技术,嵌入效率更高的隐写算法具有更好的安全性,而矩阵嵌入是一种用来提高隐写算法嵌入效率的有效方法。在进行矩阵嵌入前,通信双方
文本是存储和交换信息的最自然的方式,但是,随着信息时代的高速发展,文本的数量呈指数级增长,因此,如何迅速的从海量文本中获取信息就成为了一个具有挑战性的问题。  文本分类技
随着Web2.0时代的到来,Web技术高速发展,网站渐渐由原本的静态文档发展成为具有各种强大功能的动态页面。互联网用户可以通过网站轻松的完成很多业务。然而由于大量的个人信
近几年,随着移动互联网的飞速发展,智能手机终端和移动操作系统都取得了长足的进步,智能手机终端遍地开花,移动操作系统如iOS,Android等都取得了巨大的成功,拥有大量的用户量。在移
动画电影逐渐成为银幕上一种被人们普遍接受的艺术娱乐形式,其画面往往包含多种不同风格的对象,卡通对象和水墨画相交融的场景更是经常出现,因此,如何有效地实现不同艺术风格
随着各类移动终端的普及,对高带宽业务的需求也日趋明显,对互联网的数据传输能力也提出了更高的要求。提高网络传输效率的方法很多,但如何适当的降低文件的冗余度,提高文件的利用
随着计算机网络技术的不断发展,WEB网站包含的内容已经涉及到人类生活的各个方面,给人们带来了极大的便利。其中,商品交易类型的网站因其带来的巨大利益而迅速发展,但是在艺术品
基于照片序列的三维重建是指从多个角度对一个现实三维场景拍摄照片,并从中恢复出场景的三维模型和表面纹理的技术。这是计算机视觉和图形学领域一个近年来非常热门的研究领域
随着城市化进程的快速发展,汽车数量急剧增长,而许多城市道路建设滞后,这样便会导致城市交通拥堵,交通事故频繁以及环境污染等问题日益突出。近年来,为了缓解这些问题,智能交通系统