基于异步数据流的分布式数据仓库优化设计

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gyf2033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库作为决策支持系统的重要分析工具多年来一直备受关注。在进行海量数据决策分析时,分布式数据仓库扮演着重要的角色。本文以天玑大数据引擎中的分布式数据仓库组件——DSQL为原型,从解决实际业务需求的角度出发,带着为决策支持提供更实时服务的目的,对优化DSQL系统架构和执行流程进行了深入地研究和分析。  本文对DSQL系统优化的研究工作主要围绕执行查询时的数据流展开,分别在数据流传输和数据流执行两部分寻找切入点,通过分析原系统在一些查询场景下的缺陷后设计了基于异步数据流的传输和执行方案。  本文在数据流传输场景上指出,原系统采用的Thrift数据通信框架中心化程度高,并发度低,并且数据的来回确认机制增加了网络时延。本文创新性地引入消息队列模型,放弃使用Thrift框架并改变原系统的传输流程,转而使用可扩展协议的高性能通信库nanomsg,从套接字层面设计并实现传输逻辑。此方案改变了数据传输统一管理的设计理念,用套接字互连的策略实现收发双方P2P连接,互不影响的收发双方能同时进行数据传输,提高数据传输的并发度。另外,本文还针对无序传输的场景,使用弱一致性的计数方案进行传输确认,降低网络时延。  在数据流执行过程中,本文发现原系统不能均衡调度系统资源处理计算密集型查询。闲置资源得不到充分利用,导致此类查询效率较低。本文提出了多线程并发的执行引擎方案,优化后的执行引擎能根据存储节点数以及系统资源情况自适应的决定每个操作的线程数,大幅度提高了执行查询时每个执行节点系统资源利用率,提高查询效率。在实现这一方案的过程中,本文重点解决了JOIN操作的并发问题,设计了针对DSQL系统执行引擎的多线程Partition Hash Join算法。本文对数据流执行的优化策略是建立在数据流传输优化方案的基础之上,优化过后的数据流传输模型为多线程数据流执行时的数据分配提供了诸多便捷。  本文实验测试结果表明,建立在数据流传输优化基础上的数据流多线程执行方案对典型查询案例有显著效果提升,而在决策支持实际场景下,对于不同类型的查询优化方案的提升效果有所区别。
其他文献
光顺是几何造型中的一项重要技术,其目的是滤除模型表面噪声,产生高质量的光滑曲面。本文首先对目前已有的网格模型光顺理论进行总结,然后结合实际应用,设计了一种保持特征的网格
随着计算机技术的迅速发展和硬件水平的快速提升,尤其是近年来高性能计算机和并行技术的发展,科学计算可视化作为分析计算结果数据的关键手段已经成为高性能计算的不可缺少的组
学位
软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前,随着以Web Services为代表的分布式构件技术的发展
现代信息社会对计算机系统和互联网络的高度依赖使得作为其基础设施的软件变得尤为重要。作为信息安全中重要的一环,软件安全得到了学术界和工业界高度的重视。 软件的庞多
随着Web2.0的快速发展,互联网上积累了海量的用户产生内容,如微博、论坛、贴吧、评论等。这类信息资源具有两个显著的特点:(1)文档具有时间动态性特征,即文档与时间紧密相连,内容
学位
Internet已经发展成世界上最大的网络,并从根本上影响了整个社会的生活方式。但是随着其爆炸性增长,Internet遇到了许多问题。这些问题主要表现在网络地址问题、路由瓶颈问题、
学位
Internet上的计算资源一般都是独立开发并管理的,具有一定的自主性。而由于Internet本身所具有的开放性和动态性,Internet上的计算资源必将以某种方式实现互联、互通、协作、
交联质谱技术将质谱技术与交联技术相结合,在研究蛋白质结构与相互作用上具有速度快、成本小、蛋白质纯度要求低等优势。本课题组经过六年的合作探索,研发了应用于化学交联技术
变电站是输配电系统中的重要一环。提高变电站的安全与经济运行水平,减少变电站的运行值班人员并逐步实行无人值班,变电站综合自动化技术需要更深入的研究开发。目前流行的变电站自动化系统的主站大多选用双机热备容错系统,其目的是将单主机系统运行所带来的系统风险降至最低。目前的双机热备容错系统大多为专用的双机软件或集群软件,并配以专用的服务器及磁盘阵列柜。对于中小型变电站来说成本太高,对于老变电站改造更是难以采