云环境下基于重复数据的缓存替换算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sunjava2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,用户对数据的访问模式已经从传统的类Zipf分布转变成SE(Stretched Exponential)分布。  在 SE分布下,冷数据的比重明显增大,相比于 Zipf分布,用户的访问将会更广泛地分布在冷数据中;此外,相似文件的比例也有所上升,导致文件间的数据块重复度提高。为了提高缓存系统的效率,通过研究数据之间的特征,提出了一种新的缓存替换算法CIH(Cold-In-Hot)。该算法利用冷文件中包含的热文件的数据块,在缓存系统初始化时,先要将存储的文件进行分块重删;再对分块后的数据块使用SHA1算法进行求哈希,得到数据块的指纹,以此作为数据块的唯一标示。在缓存中,文件将以数据块的方式来进行存储,且仅仅只需要存储一份相同的数据块。CIH算法额外考虑了文件分块后数据块的重复度这一因素;通过综合考虑文件的时间、频率和重复度这些因素来选择缓存系统中要替换的数据,以此提高缓存的命中率。  通过测试发现,不管在何种分布下,CIH算法相比较于LRU、LIRS和ARC算法将有着更显著的提升,且在SE分布下的效果更明显;当缓存空间越大或数据集中数据块级重删的效果越好时,CIH算法的效果将越好。
其他文献
特征选择是一种数据降维方式。在分类算法中,数据降维的目的主要是降低时空复杂度同时尽量提高分类准确率。因此一般通过比较分类准确率有没有提高,训练分类模型的时间有没有降
OpenDaylight是一款基于SDN思想的开源控制器,得到众多IT厂商的支持。在其结构演化过程中引入了模型驱动的开发思想来代替基于API驱动的软件开发模式,并使用数据建模语言YANG
专家系统是利用特定领域的专家经验或者知识总结,通过一定的判断推理过程,获得问题的解答,并对实际情况提供辅助决策支持。而在现实生活中,由于人的思维及处理信息的不确定性、不
数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。近年来数据挖掘技术成了商业销售领域的核心技术,被广泛应用到了诸多领域,引起了学术界和产业界极大的关注,如何
随着市场全球化、生产全球化的趋势,如何降低生产成本,节约资源,如何优化资源配置,如何求得效率、成本、利润等多种利益目标的平衡也就是综合利益最优,已成为全社会关注的一
计算机和多媒体技术的应用有助于成人高等教育的质量提高和科学管理,并为成人高等教育的教学、教务、学生管理等提供良好的技术平台。本文以北京化工大学继续教育学院为背景,
蛋白质在生物体内占有特殊地位,是生物体的基本构件。几乎一切生命现象都要通过蛋白质的结构与功能体现出来,而蛋白质的功能取决于其自身的结构。作为研究蛋白质结构和功能的
随着Web技术的迅速发展,Web应用的功能和交互体验已与传统桌面应用可相媲美;另一方面,Adobe AIR等平台的兴起和流行,使得越来越多的桌面应用程序可以使用Web开发技术来实现。具有
在电子审批项目的开发和实施过程中,往往会因管理方式的不断变化,要求系统开发人员不定期地对流程进行调整。由于更新频繁,无形中提高了系统不稳定的风险,导致后期维护量大,
随着计算机技术、网络通讯的发展,人们的日常生活发生日新月异的变化。舒适、时尚的家居生活越来越成为人们生活的目标,由此提出了智能家居的设想。智能家居早先涉及的产品与家