基于数据关联性聚类的数据布局算法

来源 :中国计量学院 | 被引量 : 0次 | 上传用户:tanya_33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算的迅猛发展,海量的数据被集中到云服务器上,为用户提供存储、检索、计算等远程应用服务。在云服务器上,海量数据的存取操作往往是性能瓶颈,所以设计并优化数据布局算法,以提升存储器利用率和数据访问速度,是云计算的一个重要研究课题。考虑到海量数据的爆炸式发展和防灾的安全需求,使得数据不可能只集中于一个数据中心,所以数据布局算法不仅要研究在同一个数据中心的本地服务器集群中的分配问题,还要研究跨数据中心的数据布局,以及跨数据中心数据访问业务的效率问题。前一个可看成是战术层面的数据布局优化,后一个可看成是战略层面的数据布局优化,本文主要针对后一个战略层面问题,设计了相应的数据布局算法。论文的主要工作如下:(1)设计了一个基于数据关联性聚类的数据布局算法(DPBDD Data PlacementBased On Data Dependence)。云服务器上的众多应用往往会使用多种来源的数据,也会相互之间共享某一类数据,这种应用与数据之间的多对多关系导致了数据之间存在复杂的关联性。现有的只考虑数据中心负载均衡的数据布局算法不考虑数据之间的关联性,当执行某个跨数据中心的应用时,往往会产生大量的数据迁移,降低数据访问的效率。本文首先定义了不可被分割执行的元应用,同一个元应用所使用的数据单元被认为是有关联的,从而建立数据关联矩阵,再通过运用BEA算法对数据关联矩阵进行变换得到聚类关联矩阵,使得关联度高的数据在矩阵中排列得比较靠近,然后通过分割聚类关联矩阵把数据类分配给各个数据中心。通过仿真实验,与一致hash算法和基于数据中心容量聚类的布局算法进行了比较,结果表明DPBDD算法在数据迁移量指标上明显改善。(2)考虑到增量数据的布局问题,基于K-means算法设计了一个DPBDD-k算法。云服务器上的海量数据始终在高速增长,DPBDD算法适合用于云系统的初始静态规划和结构性升级规划,云系统运行时的动态规划则必须研究如何将新增数据合理的布局到各个数据中心。DPBDD-k算法以DPBDD算法得到的k个分类作为K-means算法的聚类中心,计算新增数据与这k个聚类中心的关联度,选取关联度最大的数据中心来存储这个新数据。仿真实验中通过与就近原则布局算法进行了对比,DPBDD-k算法的数据迁移量指标在不断新增数据的情况下更有优势。
其他文献
本文是在物业行业总体质量较低,尚未形成完善的服务体系标准,无法与时俱进,跟随时代潮流的宏观背景层面与物业企业服务水平参差不齐,传统服务模式难以为继,无法满足业主日益
中国可能是下一个达到10万亿美元的国家。摩根一斯坦利公司的经济学家安迪·谢预测说:“这很有可能在20年内发生,甚至可能在15年之后成为现实。”他说,美国的经济去年突破了10万
幸福教育应该是教育者、教育对象对教育过程感兴趣,乐意参与教育活动,对教育活动的结果感到满意的教育。学校正努力构建:“教师乐教、善教、教得有效;学生乐学、善学、学得愉快;质量优异、师生满意、人民满意”的幸福教育体系。在构建过程中,必须始终追求幸福教育的过程和结果的完美统一。  教师应该是幸福的。只有教师能够感受到生活充满希望、充满阳光,教师的工作过程是一种享受而不是一种简单而盲目的重复劳役,是自我实
目的探讨经鼻高流量吸氧治疗COPD合并Ⅱ型呼吸衰竭的疗效,明确其对COPD合并Ⅱ型呼吸衰竭的临床应用价值。方法选取2017年1~12月COPD合并Ⅱ型呼吸衰竭患者54例,随机将上述患者
目的探讨超声引导交感神经阻滞联合中医药治疗难治性心绞痛的临床疗效。方法收集2015年10月至2017年1月来诊的难治性心绞痛患者60例,随机分为研究组和对照组,每组30例。研究
对于任何企业来说成本管理都是一项重要任务,对于电力企业来说也是如此.眼下我国正处于社会主义发展初级阶段,如何提高企业经济效益,实现利益最大化是现代企业的主要发展目标
期刊
目的:探讨超声心动图在评估2型糖尿病(T2DM)患者左心室功能中的价值。方法:选取2018年1月至2019年3月就诊于我院的84例T2DM患者,按是否合并糖尿病微血管病变分为两组,合并糖
通过建筑消防监督检查工作的开展,能够消除潜在的安全隐患,不仅建筑安全性得到提升,人们的生命财产安全也可以得到保障。但就目前来讲,建筑消防监督检查工作中还有一定的问题