论文部分内容阅读
进入二十一世纪以后,随着互联网的不断发展和互联网技术的深入应用,一些大型的门户网站和电子商务网站迅速发展起来,如淘宝网、京东、亚马逊、新浪等。这些网站图片所占用的资源相当大,且其数量呈爆炸式增长,并且具有高并发访问性。面对海量的图片资源,如何高效的存储以及如何在满足高并发访问的前提下构建高效廉价的存储系统成为软件架构师需要迫切解决的问题。云计算的出现给我们提供了一条思路,通过分析我们可以采用分布式存储系统来解决上述难题。本文通过分析海量图片的存储需求,以及对现有分布式系统的研究,提出了一种基于云计算的海量图片存储模型。该模型部署在Linux机器集群上,以Hadoop中的HDFS为基础,并且通过优化实现了高容错性,并且能够提供可靠的高并发访问。采用新型的数据组织结构,把文件名和物理地址相映射,从而提供了良好读写性。同时采用HA架构,保证系统的可用性。本文的研究内容主要包含以下三个方面:第一,通过对海量图片存储的需求分析以及对现有分布式系统的研究,提出了基于Hadoop的存储模型。通过采用Master/Slave架构,实现了在廉价的计算机集群上部署系统,并且具有高容错性和扩展性。第二,通过设计缓存系统保证了存储系统的稳定性。通过设计均衡负载,实现了对各个存储节点的优化。第三,在对图片元数据的存储中采用的是Hadoop的HBase。通过对图片文件名的重新设计,使得同一类型的图片所存储的物理地址尽可能的靠近,从而提高了查询的效率。本文研究的存储系统在Linux服务器上进行了系统的搭建,通过一系列的测试所得的数据分析了系统的合理性和可行性,并且验证了文中所提方法的有效性和实用性。