面向大数据的分布式随机变分推断算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a747470666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几年中,随机变分推断在多种机器学习任务中显示出其强大能力,其应用涵盖自然语言处理和信息检索等各个领域。各领域应用不断收集待处理的数据,引发了大数据时代的到来。目前,数据的增长速度早已远超硬件能力的增长速度,因此分布式平台的使用成为大数据训练的主流解决方案。遗憾的是,关于随机变分推断的大多研究仍然停留在解决应用数学问题的阶段。而分布式随机变分推断的设计包含更多系统工程问题,如设计数据和模型的划分与聚合、算法复杂性、通信代价等许多方面。在面对大数据时,分布式随机变分推断面临以下新的挑战:1.首先,随着数据量和模型维度的增加,有必要利用分布式计算环境来加速对随机变分推断算法的训练。另一方面,分布式平台Apache Spark的日益普及,吸引了许多用户将数据放入其生态系统。然而,结合工业界经验和现有研究,Spark运行分布式机器学习算法的速度慢,其中也包括随机变分推断算法。一种现有的解决方案是,用户可以将训练任务切换到一个声称性能较好的专用系统,例如参数服务器,但用户必须经历将数据移入和移出Spark的痛苦过程,带来新的代价。2.其次,人们普遍认为分布式随机变分推断算法的通信效率过低。然而,在这方面的理论研究仍然是一片空白。同时,分布式随机变分推断算法的通信间隔对训练效率和推断质量有重要影响,但很难估计和选择合理的通信间隔。3.第三,尽管利用随机变分推断算法解决小型和静态数据集上的问题已被广泛和深入的研究。但在实际情况下,数据集通常非常庞大,并且是以流的形式收集的。在现实世界中,在海量流数据上运行机器学习算法,面临三个挑战:模型演化,数据动荡和实时推断。为此,本文的主要研究内容和研究成果如下:1.本文研究了分布式系统中随机变分推断算法效率问题。为了提高利用随机变分推断处理海量数据时的效率问题,本文以潜在狄利克雷分配(latent Dirichlet allocation,LDA)学习模型为例,重点分析了Spark官方处理机器学习的软件包MLlib中实现的分布式Online-LDA算法的性能瓶颈。本文论证了,Spark的性能劣势来源于求解方法不够合理,而并非控制Spark执行的BSP(bulk synchronous parallel)模型的基本缺陷导致的。本文通过利用模型平均(model averaging,MA)可以显著提高Spark中求解潜在狄利克雷分配问题的通信效率,以此设计的MA-LDA算法性能更好。本文实现这一改进是不需要改变Spark或MLlib的本质特性的,它仅需要在应用层进行少量的开发工作。并且本文通过使用其他系统优化策略,进一步提升了MA-LDA算法训练速度,使之与Spark上的现有算法相比提高几个数量级。实验评估结果表明,MA-LDA算法令Spark的计算速度可以与专用机器学习平台上最快的潜在狄利克雷分配算法相媲美,收敛后获得的模型质量更具优势。2.本文研究了分布式随机变分推断算法在理论上的收敛性和通信效率问题。成果1基于实验比较,表明了基本分布式随机变分推断(Spark中的Online-LDA)比模型平均随机变分推断(MA-LDA)具有更高的通信代价。但是,如何从理论上分析比较这些算法的收敛速率和通信效率,仍然是研究空白。为解决这一问题,本文提出了一种形式化的分析流程,用该流程可以从理论上分析各种分布式随机变分推断算法的通信效率。基于该分析流程,本文首先推导出,基本分布式随机变分推断算法具有线性通信复杂性O(T),其中是每个计算结点处理的数据量。之后本文通过分析得出,模型平均随机变分推断算法具有亚线性通信复杂性O(T3/4)。本文不但填补了从理论上分析比较不同分布式随机变分推断算法的研究空白,并且可以启发研究人员设计和分析更好的算法以提高训练效率。3.本文研究了分布式模型平均随机变分推断算法中通信间隔问题。成果1和成果2分别从应用和理论两方面论述了模型平均随机变分推断算法的优势,同时可知,通信间隔的合理设定十分必要,但非常困难。为了弥补固定通信间隔的固有缺陷,本文设计了一个新颖的通信间隔动态变化的算法,该算法的特点是,通信间隔会随着模型收敛而线性递减。本文从理论上证明了该算法的收敛速率和通信复杂性均为当前最优。与基本模型平均随机变分推断算法相比,该算法避免了固定通信间隔引发的问题。用该算法求解潜在狄利克雷分配问题的实验结果展示了其优势。4.本文研究了面向流数据的分布式随机变分推断算法高效训练和实时推断问题。为了应对现实世界流数据处理面临的三个挑战:主题演化,数据动荡和实时推理,本文提出了一种新颖的分布式随机变分推断算法来求解流数据上的潜在狄利克雷分配问题:StreamFed-LDA。该算法在支持终身学习的框架上实现,可捕获流数据上不断发展的主题。另一方面,该算法在学习最新数据特征同时,保留历史信息,以应对数据动荡情况。此外,其引入了可以降低计算和通信代价的技术,从而增加算法的吞吐量并减少等待时间,面对海量流数据可提供实时推断。本文在四个真实数据集上评估该算法,实验表明,StreamFed-LDA的训练性能明显优于其他的基准算法,推断延迟减少几个数量级。
其他文献
随着时代的进步,我们国家的经济在飞速发展。在企业经营过程中财务是关系企业正常运转的命脉,而会计在企业里发挥着至关重要作用,如何使会计通过正规的计算模式,整理出科学、正确的数据作为企业领导人决策时参考的依据则是一项严肃工作。特别是在市场经济中,传统的会计形式已经过时,跟不上时代的脚步。因此,在"一带一路"的视域下,金融合作、产业合作、基础设施建设和产业合作等对会计改革提出了更具有挑战性的要求。
期刊
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人领域的重要研究问题,实现了机器人搭载相机和激光雷达等传感器,在未知环境中对自身定位同时构建地图的任务。近年来,随着增强现实和自动驾驶等应用的兴起,视觉SLAM(Visual SLAM,v-SLAM)研究受到了广泛的关注。其中单目SLAM仅以图像作为主要感知信息源,基于多视几何理论估计相
随着水体富营养化等污染现象的加剧和我国污水排放标准的日益严格,污水处理中氮污染物的深度去除需求愈发迫切。厌氧氨氧化(Anaerobic ammonia oxidation,Anammox)由于其高效脱氮和低能耗等优势具备广阔的应用前景,但受限于Anammox细菌的缓慢繁殖速度,富集速度仍是自养生物脱氮领域中的瓶颈问题;同时,利用多种分子生物学手段阐明群落结构演替规律,多角度全面揭示微生物群落的代谢
随着对摆式积分陀螺加速度计(Pendulous Integrating Gyroscopic Accelerometer,PIGA)精度和稳定性的要求越来越高,通过改进加速度计材料、设计和加工工艺的方法来提升使用精度变得日益困难。因此,如何通过先进的测试方法对PIGA的误差模型系数进行精准的标定,成为了进一步挖掘仪表精度潜能的关键问题。本文将针对PIGA误差模型系数的标定方法展开研究,全面分析仪表
在实际生产和实践中,绕等温柱体(圆形柱体,方形柱体)的尾流和传热研究得到了广泛的关注,例如电子芯片冷却系统(处理器和功率芯片),微型热交换器,燃料电池,数据中心和涡轮机叶片冷却系统等。随着技术的进步,热工科研人员正在寻找不同的机制来提高相互作用物体和周围流体之间的热工性能。常见的强化传热机制可分为主动和被动两种。主动方法需要外部能量输入来维持系统,进而以强化传热。而被动方法不需要额外的能量来源,仅
为全面了解汉氏葡糖醋杆菌(Komagataeibacter hansenii) HDM 1-3的发酵特性,为提高纤维素产量提供基因组信息,对其基因组数据进行测序分析。采用PacBio平台对该菌株进行全基因组测序,基因组由1个3 659 612 bp染色体和2个质粒组成,编码3 820个蛋白质,含有7个纤维素合成酶基因。基于16S rRNA的系统发育分析表明了K.hansenii HDM1-3相对于
免疫系统可通过特异性免疫与非特异性免疫发挥免疫防御、监视和自身稳定等功能。机体免疫系统出现异常或免疫能力下降时,均会导致免疫调节功能紊乱,严重时甚至可引发多种免疫相关疾病。因此,维持机体免疫系统的稳定对人体生命健康具有重要意义。海洋中含有丰富的资源,海洋中的多种植物即可作为食品来源,也可作为增强机体免疫的药物。孔石莼是一种大型绿藻,广泛分布于中国东海和南海沿岸,含有丰富的生物活性物质,其中多糖的含
声音信号中包含着大量关于人们生活环境的信息。随着互联网上音频数据的日益增多,以及人们对智能设备依赖程度的增加,迫切希望机器能具有更多的感知和理解声音的能力。针对声音感知与理解的研究,目前主要集中在声学事件识别和声学场景分类上。二者同属于音频分类的范畴,其所要解决的关键问题之一,就是如何学习出有效的音频语义特征表示。鉴于音频是一种时序性信号,其语义内容既取决于所包含的各个基元内容,也取决于各个基元间
随着微机电系统和纳米技术的高速发展,微纳尺度的热量传递引起了广泛关注。微纳尺度条件下,经典的傅里叶导热定律不再成立。声子作为绝大多数半导体的热载子,其微观动力学行为对微纳尺度热量输运有着重要影响。对于有限尺寸微纳结构内的声子导热,声子玻尔兹曼方程是目前最广泛使用的理论模型之一。由于材料内不同频率的声子的平均自由程和弛豫时间通常会跨越好几个数量级,声子输运本质上是个多尺度问题。迄今为止,大多数求解声
作为最重要的化石燃料之一,未来几十年内煤炭仍然在我国的能源消耗中占主要地位。但是,煤炭利用会引起严重的环境问题。而生物质能属于可再生能源,可为世界提供约14%的能源消耗。但是,生物质原料的供应问题,限制了其大规模的工业应用。煤与生物质共利用可以弥补两者之间不足,是一种潜在的有前途的技术方法。煤与生物质共热解作为共热化学转化过程中的初始阶段,对后续过程起到至关重要的影响。在共热解过程中,煤与生物质之