内存OLAP集群关键技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:ah12345679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据集下进行高性能的联机分析处理(OLAP)需要高性能的分析处理引擎。同时面对数据规模的快速增长,OLAP处理引擎需要有很好的扩展性,以适应不断增长的数据规模。为了解决大数据集下的高性能OLAP分析,本文从两个方面研究了内存OLAP集群的关键技术,首先是提升集群中单个节点的处理性能,其次是通过提高集群的扩展性来提升OLAP引擎的处理规模。  在内存OLAP系统中,受内存访问速度的限制,CPU浪费很多时钟周期等待访存操作的完成。内存访问是内存OLAP引擎的瓶颈。提高单节点处理性能的关键是内存的高效访问。为此,本文采用Page Coloring技术,在应用程序的层面上实现了Cache的逻辑划分,并设计了W-Order与Color Index两种Cache优化的实现技术,通过按照Color的顺序访问低局部性数据,将Cache冲突限制在一个Color分区中,降低了低局部性数据对高局部性数据的污染,实现了对高局部性数据的Cache访问优化。实验表明,提出的Cache优化实现能够明显提高高局部性数据在Cache中的驻留率,有效的降低Cache Miss的发生,查询执行时间降低10%以上。  受到物理内存容量和硬件设计的限制,单个节点处理的数据规模不会很大,随着数据集的增大,单个节点无法通过不断的增加物理内存来提高处理规模。针对不断增长的数据规模,本文设计了高度可扩展的内存OLAP集群。从数据的组织上,设计了维表集中存储、事实表水平划分的数据分布方案,从而从数据组织方式上保证了系统的高度可扩展性。基于新的数据组织方式,设计了可扩展的处理星型连接的分布式DDTA连接算法,通过使用谓词向量技术,降低了中心节点和处理节点的通信量,提高了集群处理能力。针对维表属性上的分组操作,设计了预分组的分组处理方法,扩展了分布式DDTA连接算法可以处理的查询模式,并进一步提高了系统的扩展性。
其他文献
随着无线传感网络技术的发展,其应用范围日趋广泛。而协议作为无线传感网络通信的基础,其重要性显而易见,但由于无线传感网络运行环境的复杂性,协议的正确性很难得到保证。通常的
现今互联网已经成为了信息的海洋,每天有上亿张新页面发布到互联网中,虽然其中大型的门户网站汇集了大量的信息,但是国内数以万计的中小型网站的信息量总和确实远远高于门户网站
因特网的繁荣给世界带来了重大的改变。但随着越来越多的Web服务程序和网站的开发,Web的漏洞如同雨后春笋般地出现。在最近几年,网络上出现了一种新的攻击类型:客户端攻击。客户
对软件系统源码进行缺陷静态检测所面临的最大的现实困难之一是缺乏相应的缺陷检测规则。尽管对软件代码进行人工地分析和理解能够获得反映程序安全本质的深层次的缺陷检测规
近年来,数据分析市场的需求正快速发生变化。越来越多的企业和组织需要对大量数据进行分析,这些数据包括爬取的网页、搜索日志和点击流等。与此同时,需要存储和处理的数据正在急
随着社会的发展、科技的进步,单纯的由软件服务提供商提供软件,客户自己提供IT基础设施和人力对软件进行维护已经远远不能满足客户的需要。尤其是对于中小型企业来说,自己维
随着电子商务和web 2.0应用的发展,越来越多的消费者在购买和使用产品之后,喜欢在电子商务网站、论坛、博客发表对产品的观点态度,这些评论包含了用户对产品的特征,功能,性能
随着计算机网络与技术的快速发展,应用服务器机群系统得到了越来越广泛的应用,其中负载均衡技术是应用服务器机群系统能否高效率高可靠性运行提供稳定的服务质量的关键环节。
在三网融合的环境下,业务运行协同平台需要为各种增值业务提供运行环境,包括对各种资源的访问,列如提供对业务数据和用户数据的存储访问,而且还需要为业务的快速开发及部署提
随着计算机软硬件技术的发展,普适计算不断的融入到人们的生活中,它是计算、通信和数字技术等多种技术的融合,提高了工作效率和生活便利性。上下文感知计算作为普适计算的一个重