论文部分内容阅读
网络集中存储系统是数据处理集群存储和共享数据的一种重要方式,它有着高密度,易共享,高可靠,易管理等优点。随着数据存储和处理需求的爆炸性增长,以及计算能力的快速发展,传统网络集中存储系统的性能和可扩展性越来越不能满足需求。客户端缓存是提高网络集中存储系统性能和可扩展性的重要手段,而SSD技术的迅猛发展给客户端缓存的容量带来了突破性的变化。为了给大容量客户端缓存提供高效的缓存管理算法,本文探索了数据访问在宏观上的特性和规律,并提出稳定集模型用于刻划这一规律。本文根据稳定集模型的刻划结果指导大容量客户端缓存管理,从而提高阶段间数据换入换出效率,降低I/O响应时间,提升存储系统带宽,最终提高集中存储系统性能和可扩展性。本文的主要工作及贡献如下:
稳定集模型及其刻划定义:稳定集模型是数据访问宏观规律总结。相对于数据访问的微观规律比如传统的时空局部性,稳定集模型的最大特点是:(1)稳定集模型认为数据可以划分成多个稳定集,每个稳定集内部的数据存在着固定的同时访问关系。(2)对数据访问规律的研究不是基于数据块,而是基于稳定集整体。为了从已有的数据访问中获得稳定集模型的相关参数,本文定义了一组用于刻划数据访问、获得相关参数的稳定集模型精确定义,并设计了一个高效的刻划算法。实验证明,在SSD缓存环境下,该刻划算法可以获得比较精确的刻划结果,与真实访问差异小于10%;该刻划算法的时空开销可以被实际系统所接受,平均时间开销仅为实际I/O持续时间的9.94%,空间开销不超过14MB。
基于稳定集模型的大容量客户端缓存管理方法:为了将稳定集模型的刻划结果用于管理大容量客户端缓存,本文提出了整套基于稳定集模型的缓存管理方法,并定义了该套方法的作用范围,这包括:(1)大容量点的定义:量化该缓存管理方法的作用范围。(2)稳定集粒度的使用:使用稳定集粒度代替固定粒度作为缓存管理的基本单位。(3)基于稳定集模型的预取算法:定义了基于稳定集的空间局部性,并使用它作为数据预取的依据。(4)基于稳定集模型的替换算法:定义了基于稳定集的时间局部性,并用它增强LIRS替换算法得到SSLIRS。相比于传统的缓存管理算法,该算法的最大优势在于能够高效的进行阶段间数据换入换出。模拟实验表明,基于稳定集模型的方法可以在缓存容量充足的情况下把应用I/O响应时间降低1到2个数量级,把后端存储负载降低1个数量级左右,从而大大提高网络集中存储系统的性能和可扩展性。