基于关系型数据库的数据切分问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhuav
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国经济的快速发展,人们的生活水平不断提高,网络在中国得到迅速普及。截止到2015年底,中国的网民数量已达到了6.88亿。再加上网络设备和传输介质等硬件的更新换代,网速大大提高,由此产生了海量的应用数据。有的大型互联网公司每天产生几十TB的数据,接受数十亿次的访问。这就对数据库性能提出了更高的要求,而传统的关系型数据库存储能力有限,扩展能力又不强,已不能满足大规模数据的存储、访问需要。分布式数据库系统通过把多台单机数据库组合成一个统一的整体,实现了数据的分布式存储,分布式访问,是解决海量数据访问和存储问题的理想方案。分布式数据库自从上世纪七十年代提出以来,经过多年发展,已经诞生了很多优秀产品。而应用从单点数据库系统向分布式数据库系统转换时遇到的首要问题就是数据切分问题,即按照什么算法把数据切分到不同的物理节点上。本文以数据切分为主题,进行了以下两方面的工作:一是结合现有的数据切分算法,提出了一种基于范围切分和哈希切分的组合算法。全局上,数据按增量区间进行切分,切分的片段不是分布在一个数据节点,而是一个节点组内;局部上,也就是在节点组内,片段会再按简单哈希方式均匀分布到组内各数据节点上。该算法继承了范围切分和哈希切分的优点—数据分布均匀、扩展能力强,同时又规避了其缺点,是一种综合能力优秀的切分算法。在和一致性哈希算法的对比实验中,该算法表现出了较好的数据访问能力和扩展能力。尤其是可以很方便地进行数据扩容,无须迁移任何数据。在具体应用测试中,解决了大规模数据查询延迟问题,具有良好的应用价值。二是针对数据切分应用做了一些工作。数据切分要想投入应用,必须解决两个基本问题:自增主键唯一性问题和分布式连接问题。这两个问题也是数据库从单点发展到分布式时所面临的最基本问题,对分布式系统的可用性和性能都具有重要影响。本文在借鉴前人成果的基础上,讨论分析了各种场景,最后分别给出了可行的解决方案,并进行了代码实现。对于自增主键不唯一问题,给出了一种全局序列生成方案,通过维护一个全局序列表来生成自增长主键;对于分布式连接问题,由于其操作代价巨大,首先考虑分布式连接避免。数据冗余和水平派生切分是两种比较有效的用于避免分布式连接操作的方法。如果这两种方法都不适用的话再考虑Direc-join算法。并对全局序列生成和直接连接方案进行了性能测试,测试结果达到了预期,可以一定程度上解决自增主键不唯一和分布式连接问题。
其他文献
近年来Mashup在互联网的流行引起了电信业的广泛关注,移动终端厂商和电信运营商都在考虑如何将Mashup引入到电信领域,以利用网络中丰富的资源产生新颖的电信应用。目前,将电
随着无线移动技术的广泛应用,未来移动通信网络将逐步演化成为一个异构互联、多接入技术并存、支持终端移动性的全IP融合网络。本文首先阐述了课题研究的背景,分析移动IP技术
随着网络的应用,越来越多的企业和用户将信息通过网络进行传送,网络上的数据量成爆炸性的增长,这给网络中的路由器或者防火墙性能提出了更高的要求。随着下一代网络的兴起,音
生物监测技术与化学分析法相比具有先知性、预见性和警示性。利用生物监测技术建立水环境安全预警系统是目前国内外环境科学研究的热点,以鱼类作为水质监测生物载体的水质在
网络的普及推动了视频会议的发展。本文首先介绍了视频会议的起源、发展及意义;然后阐述了流媒体技术的相关知识;接着介绍了Macromedia Flash Media Server(FMS)技术的特性,
随着智能移动设备和定位技术的快速发展,LBS已经被广泛应用于移动应用软件之中,通过使用地理位置信息,这些应用在为用户带来更加个性化和有针对性服务的同时,也给用户地理位
无线传感器网络集成了传感器、计算机和网络三大技术,是一种全新的信息获取和处理技术。在无线传感器网络中,节点首先采集各种信息,然后对采集的数据进行内部处理,最后利用各
人脸检测最初是人脸识别问题中的一个子问题。关于人脸识别的研究最初开始于上个世纪六、七十年代,一直到现在仍然是一个研究的热点问题。最初的人脸识别在定义问题的时候主
近年来,随着数据库技术在世界上的不断普及和推广,数据库在各行各业中得到了广泛的应用,将数据库技术和图像处理技术结合在一起使用也已经成为数据库应用的一个重要领域。利