海量存储系统元数据服务设计及优化

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zcom0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息规模的扩大,海量存储系统中,元数据服务器的性能、可扩展性和可靠性面临了很大的挑战。本文结合中科院高能物理研究所的海量存储系统GRASS,完成了以下研究:   1.基于内存数据结构的元数据服务器设计   海量存储系统中的元数据组织形式包括:关系数据库、磁盘文件系统的扩展属性、HASH函数定位以及基于内存的数据结构四种。本文根据这四种形式的优缺点和应用需求,设计了一个基于内存数据结构元数据服务器。该设计将存储系统的元数据记录在内存数据结构中,通过内存指针保存名字空间的层次关系,通过HASH函数实现元数据节点的快速定位,通过线程读写锁保证多线程对名字空间操作的一致性,针对客户端与元数据服务器“数据包内容小,通信频繁”的通信特点,对TCP/IP通信进行了优化。实验说明,GRASS的元数据访问性能较其前系统CASTOR,获得了10到100倍的提升。   2.基于名字空间剪枝的元数据搜索优化   海量存储系统中,对元数据进行大规模、深度的搜索往往需要很长的客户端等待时间。提高元数据搜索性能的一种普遍的方法是构建外部索引,这种方法不仅增加了系统的成本,加重了服务器的负载,而且可能带来元数据信息的不一致。元数据属性(文件名,文件尺寸,时间等)具有明显的空间局部性。GRASS元数据服务器在不使用外部索引的条件下,通过对名字空间的搜索剪枝,提高了元数据搜索效率。该设计在目录的元数据中加入了记录其子孙节点的元数据特征的变量,通过Bloom Filter算法,log函数等手段,在元数据操作的过程中,修改这些特征变量;通过测试这些特征变量,进行搜索剪枝。实验表明,这种方法通过减少不必要的名字空间遍历,提高了元数据搜索的性能。   3.元数据服务的可靠性设计   在大型分布式系统中,组件的故障是常态而不是异常。元数据是数据的数据,元数据服务器是海量存储系统中,可靠性要求最高的组件。对于在内存中记录元数据信息的服务器,可靠性尤为重要。GRASS从以下5个层次设计了元数据服务的可靠性:1)定期的元数据持久化,将内存信息写入的磁盘2)元数据操作日志,记录内存中元数据信息的修改3)磁盘RAID实现磁盘数据的冗余4)分布式块设备副本,在从服务器上实现主服务器磁盘数据的网络镜像5)heartbeat,实现主从元数据服务器在故障时的切换。这些设计能够在发生软硬件故障时,保证数据的安全性和服务的可用性。
其他文献
基线是星载InSAR的关键参数,基线测量精度直接影响星载InSAR数据的应用效果。激光干涉测量技术以其特有的大测量范围和高测量精度优点,广泛应用于精密测长领域。为了将激光干
无线传感器网络被列为21世纪最有影响力的和改变世界的十大技术之一,其在科学研究、环境监测、日常生活等领域的作用越来越重要。无线传感器网络网关在整个传感器网络起着桥梁
众核技术已成为当前处理器体系结构发展的必然趋势,如何对众核处理器设计进行有效而充分的验证,成为众核处理器芯片能否流片成功的关键因素之一。根据有关的研究数据,目前多数的
有效载荷系统的集成测试是空间有效载荷研制过程中的一个重要环节。实现对有效载荷系统的智能测试,对提高测试的效率、准确率和降低人力成本具有重要的意义。因此,有必要对有
语音对话是人们进行交流的最普遍的方式。当前对对话语音进行分析的需求越来越大,因此,限定领域对话的语音识别研究的重要性也越来越大。   限定领域对话语音识别在实用化
科研管理是科研活动的重要组成部分,其信息化水平直接影响着科研管理的效率、能力和科研工作者的积极性、创造性以及研究机构的整体竞争力。因此,建立一套以决策支持系统为核心
随着网络的普及和深入应用,当今万维网(Web)汇聚了极其丰富的信息资源,在这种信息爆炸的网络环境下,人们不再满足于门户网站、搜索引擎这种主动信息获取方式,更期望通过内容监测,
访存性能一直是现代处理器中的性能瓶颈。访存部件(Load Store Unit,LSU)是超标量处理器中专门用于处理与访存相关一类指令执行的功能部件。由于访存指令的执行效率直接影响
手语作为一种多模式协同的视觉语言,是听力障碍者在工作与生活中与他人交流的主要手段。中国手语词的数量远少于标准汉语,大量的信息都蕴含在丰富的视觉韵律中。已有的中国手
DSLAM是数字用户线路接入复用器,其功能是接纳所有的DSL线路,汇聚流量,相当于一个二层交换机,用作宽带接入。基于网络协议的DSLAM测试技术,要求测试人员手动的操作各种设备来