【摘 要】
:
如今,互联网已经深入到了人们日常生活的各个方面,从工作、娱乐、沟通到购物消费等都因为网络的便捷发生了巨大的变化,而这同时也产生了海量的数据需要存储和访问。为了应对这些问题,国内外研制了多种不同存储模式的No SQL数据库,其中键值数据库由于它的存储结构简单和良好的性能优势,获得了人们更多的青睐。键值数据库是使用一对数据作为存储模型,其中键的数据类型必须是能作为唯一标识的字符串,目的是为了建立索引及
论文部分内容阅读
如今,互联网已经深入到了人们日常生活的各个方面,从工作、娱乐、沟通到购物消费等都因为网络的便捷发生了巨大的变化,而这同时也产生了海量的数据需要存储和访问。为了应对这些问题,国内外研制了多种不同存储模式的No SQL数据库,其中键值数据库由于它的存储结构简单和良好的性能优势,获得了人们更多的青睐。键值数据库是使用一对数据作为存储模型,其中键的数据类型必须是能作为唯一标识的字符串,目的是为了建立索引及数据的查找,而值是由二进制大对象进行存储,因此可以是基础数据类型、照片、视频、文件等数据。近年来,涌现出了Redis、HBase、Level DB、RocksDB等多种键值数据库,其在电子商务、社交平台和网络游戏等领域有着越来越重要的地位。然而传统的内存-硬盘的存储结构已经成为制约键值数据库进一步提升性能的瓶颈。近年来,非易失性内存(Non-Volatile Memory,NVM)的出现给键值数据库的进一步优化提供了方向。相比于普通内存,它有着持久性保存和容量大的特性;相比于磁盘,它有着可按字节寻址和低访问延迟的特性,这能够弥补两者在性能和容量上的差异。本文的主要工作如下:(1)分析与总结了目前国内外对LSM-tree的优化研究现状和其中存在的问题,尤其针对非易失性内存在键值存储引擎中的应用进行了研究。(2)详细分析了RocksDB存储引擎的设计架构和运行机制,然后从理论和实验两个角度分析了系统存在的问题:写放大、写停顿、读延迟。实验结果表明:a)磁盘中数据的合并压缩策略带来了很高的写放大,这不仅会降低系统的写入性能还会大幅减少磁盘的使用寿命;b)为了平衡系统Flush的速度和维持L0层中数据的容量,系统会发生很严重的写停顿,这极大的影响了前台的写操作;c)由于L0层中并没有维护全局有序,给读延迟造成了很大的开销。(3)在上述结论的基础上,本文设计与实现了基于NVM的键值存储引擎PmemRocksDB。其改进内容包括:a)把L0层存储到NVM中,并且设计了SATable结构以充分利用NVM按字节寻址和低延迟的特性;b)用多线程的方式对多个SATable进行排序分组,以减少L0层与L1层发生Compaction时的数据量;c)在内存中维护了针对L0层的索引,加快对L0层中键值对的查找效率;d)通过增加每层的数据容量,以在存储相同的数据量时,系统有更少的数据层数,减少了数据的合并次数,进而减少系统的写放大。最后,对最终实现的Pmem-RocksDB进行深入的功能测试和性能测试。其中功能测试使用自编写的工具,验证数据库对外提供接口的正确性;性能测试使用了RocksDB提供的db_bench和雅虎的云服务基准测试工具YCSB,与官方的RocksDB进行性能对比。测试结果表明,Pmem-RocksDB在写入性能、写放大和写停顿方面已优于RocksDB。
其他文献
随着信息化时代的到来,生活中的各行各业都涉及到海量数据的处理。大数据的高效处理离不开异构分布式系统的支持,但无论依赖于何种分布式计算平台,任务调度模型和算法都是提高大数据处理效率的核心和瓶颈。可以说,任务调度策略的优劣直接决定了平台的资源利用率和大数据的处理效率。大数据任务可以归为三类:可分任务、不可分任务和工作流,其中,工作流由于其子任务之间具有数据依赖关系且子任务的执行顺序受到约束,已有研究表
永磁同步电机(Permanent Magnet Synchronous Machine,PMSM)具有转矩大、功率密度大和高效节能等优势,被广泛的应用到电动车、变频空调、变频洗衣机、扫地机器人等各个领域。永磁同步电机控制系统的设计是目前学术界和工业界研究的热点问题,常见的控制方式有恒压频比控制、磁场定向控制(Field Oriented Control,FOC)和直接转矩控制。其中FOC系统具有功
作为第三代半导体材料的代表,碳化硅(Si C)由于具有禁带宽度大、击穿电场高、热导率高等特点,被广泛应用于高功率电子器件领域。而结势垒肖特基(Junction Barrier Schottky,JBS)器件拥有较低的开启电压,更快的恢复时间,更少的开关损耗,较低漏电电流等优点,具有明显优势,已经成为当前功率器件研究热点之一。不断提高的器件参数也对器件的掺杂等关键工艺提出了更高的要求。本文在此背景下
现场总线技术广泛应用于工业自动化领域,是智能设备之间的数据通讯网络,增强了底层设备与控制管理层之间的联系。控制器局域网(CAN)就属于数据现场总线范畴。经过多年的发展,现场总线已经较为成熟,为了朝速率更快成本更低的方向发展,现场总线正在逐步向工业以太网转变。传统现场总线向工业以太网转变时,为了最大化保留原设备,降低更新换代的成本,需要在工业以太网芯片中搭载现场总线接口。目前市场中有大量的CAN总线
得益于科学技术的不断进步以及物理算力的逐步提高,神经网络作为当下人工智能领域的重要一环,已经被越来越多地应用于金融、交通、医疗、消费等各行各业中。但是,目前用于评估神经网络质量的方法依然是基于训练集—测试集的传统软件测试方法,无法保证神经网络的安全性甚至是正确性。再加上对抗攻击技术近些年不断地发展,使得对抗样本可以在只产生微小扰动的情况下肆意更改神经网络的输出,这也给人工智能领域覆上了一层阴霾。因
近年来,深度学习技术在多个研究领域大放异彩,基于卷积神经网络模型的创新成果与日俱增。为解决医疗资源紧缺和创建更好的医疗环境,全球多个国家出台相关政策,鼓励发展医疗人工智能行业,不断推进新一代计算机技术在医疗行业的应用。其中,利用深度学习技术的辅助诊断算法一直是数字医疗研究的热点,它能帮助医生诊断分析大量医疗数据,减少阅片误诊率和漏诊率。当前,一些深度学习算法模型在图像的检测效率和精度上相比于专业医
三维装箱问题属于典型的组合优化问题,在物流装载、仓储分配等问题中有广泛的应用场景。特别是在我国物流行业高速发展的今天,装箱效率是物流企业不可回避的优化方向。在一定时间内计算出合理的装箱方案能帮助企业降低物流成本,减少车辆与人员的浪费现象,如果再配合使用可视化软件或自动化装箱设备将大幅度提高装箱效率,从而增强企业竞争力。因此研究三维装箱问题不仅有极大的理论价值,也有十分重要的经济价值。通过文献调研,
可分任务的多趟调度已成为任务调度领域研究的热点和难点问题。多趟调度中不合理的任务分配不仅可能降低任务的完成效率、降低平台的资源利用率,甚至可能引发处理机的时间冲突(即任务在时间上重叠分配),导致处理机不能如约按时完成任务计算。鉴于此,本文提出了一种合理、高效且无冲突的多趟调度模型及算法,并将该理论成功应用于求解雾计算平台下的任务调度问题。本文的主要研究成果包括:1.研究了无冲突的多趟调度模型及算法
聚类算法作为一种无监督学习方法,广泛应用于医学影像、图像分割、目标检测、和网络安全等领域。近年来,随着数据信息愈加复杂、多样,类的不平衡问题始终是学者们研究的热点之一。传统的聚类算法一般适用于普通数据集,在类大小差别较大的不平衡数据集上的聚类具有难以确定最终聚类数、不平衡比例未知等难点。多子类思想,是一种将不平衡数据集分成若干相似大小的子类,之后对相似度较高的子类进行合并得到最终聚类结果的过程。这
近年来,在互联网和医疗器械等市场需求增大和工艺技术不断更新换代的驱使下,ADC芯片需要向更高精度、更小能耗的方向发展。但是传统的SAR ADC被限制在中等精度,高精度的Sigma-Delta ADC利用过采样来实现精度的提升,但是过采样对失配误差的作用很小,传统校准失配误差方法为工艺修调或者数字校准,增加了复杂度。为打破失配误差对高精度的瓶颈限制,本文在SAR ADC的基础上,借助辅助ADC实现噪