论文部分内容阅读
索引性能瓶颈制约着云存储下重复数据删除技术的发展和应用.通过分析影响索引性能的关键因素,提出一种基于抽样和相似度的重复数据删除索引算法.该方法利用基于文件级别的抽样,抽取每个文件部分指纹组成索引.通过减少指纹索引比对的范围和次数,提高索引检索的效率.当新写入文件的相似度达到临界值时,系统进行深度删冗,从而增加整体的重删率.