基于Spark的分布式机器学习平台研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户：iloveyouguoran

【摘要】

：

随着计算机与网络在各行各业的广泛应用,收集管理数据变得越来越容易,数据的规模也在成倍的增长。在分析决策、人工智能等领域,这些规模庞大的数据发挥着日益重要的作用。机

【作者】

：

项如

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

机器学习平台分布式 Spark 稀疏学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机与网络在各行各业的广泛应用,收集管理数据变得越来越容易,数据的规模也在成倍的增长。在分析决策、人工智能等领域,这些规模庞大的数据发挥着日益重要的作用。机器学习方法是处理、分析大数据的常用手段,是人工智能的核心研究方向,因而构建一个高效的分布式机器学习平台显得尤为重要。本文设计并实现了一个分布式机器学习平台LIBBLE-Spark。该平台基于Spark实现,充分利用了 Spark基于内存计算的特点,并且能够深度融合入Spark数据处理流水线中,减少数据存取时间。LIBBLE-Spark包含有以下三点主要工作:一、基于Spark平台实现了常用的回归、分类、聚类等多种算法。在回归与分类算法的实现上,我们应用了逻辑与框架更适合于Spark的SCOPE算法,从而使得算法模型优化过程具有收敛速度快、网络通信开销低等优点,大大提升了模型优化速度,模型优化速度远快于同类平台。同时LIBBLE-Spark为用户提供了自定义广义线性模型接口,方便用户实现自定义模型的快速优化。二、针对稀疏学习做出相应的优化实现。对于稀疏模型的学习,我们针对L1正则化的优化提出了惰性收缩(Lazy Shrinkage)策略,有效减少了在高维稀疏数据上采用近端梯度下降法优化的计算开销。三、针对生产环境机器性能表现不一、任务可抢断等情况,提出并在Spark上实现了部分同步协议(Partial Synchronous Parallel,PSP)。当出现机器性能表现不一及任务抢断所造成的慢节点现象时,PSP协议能够在不影响算法收敛的情况下有效地降低等待时间,加速优化进程。

其他文献

分析小学语文教学中怎样激发学生的学习兴趣

【摘要】随着新课改的不断推进，激发学生学习兴趣，优化小学语文课堂教学成为了小学语文教师共同探讨的话题，据此，本文探究如何在小学语文教学中激发学生的学习兴趣，以期为进一步优化小学语文课堂教学提供帮助。　　【关键词】小学语文教学激发学生学习兴趣措施　　【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089（2018）27-0134-02　　笔者观点，要激发学生的学习兴趣，就必

期刊

小学语文教学激发学生学习兴趣措施

基于表面等离子体共振效应的椭圆柱银纳米线的光力研究

运用有限时域差分方法,研究了两椭圆柱银纳米线之间的光力及其物理机制,并且分析了椭圆柱银纳米线的尺寸以及相对位置对光力的影响.结果表明:椭圆柱银纳米线的尺寸以及相对位

期刊

有限差分时域方法表面等离子体共振银纳米线光力局域耦合共振Finite-Difference Time-Domain(FDTD)Plasma reson

金属-电介质约束的半导体微盘激光器

设计了一种以半导体材料InGaAsP作为核心结构的器件表面蒸镀二氧化硅膜层,在其上蒸镀金膜层,构成金属电介质半导体微盘激光器结构,盘面的厚度为2μm,盘面半径为6 μm ,盘壁侧

期刊

微盘激光器回音壁模式品质因数模体积有限元法DepositsFinite element methodHelmholtz equationLasersM

虹桥国际机场扩建工程西航站楼旅客捷运系统客流分布预测研究

上海虹桥国际机场扩建工程西航站楼的建设分两期实施,均涉及到航空旅客在航站楼内部的交通出行问题,是否建设旅客捷运系统是一个规划控制因素以及服务水平的关键。建设航站楼

期刊

旅客捷运系统机场客流预测

阳泉市城市防洪排涝现状及对策初探

分析了阳泉市的暴雨洪水特征及其危害性，从阳泉市防洪排涝现状出发，提出了要树立“给洪水以出路”的理念及实现人与洪水和谐共处的观念。

期刊

防洪排涝体系建设阳泉

西气东输工程用大口径热煨国产弯管情况分析

在两气东输工程的建设中,我国首次采用大口径1016mm、高强度X70管线钢管铺设,在整个工程上用于改变管道走向的弯管有4000多个.这也是国内企业首次采用热煨工艺生产X70弯管,相

期刊

西气东输工程国内企业业主国产生产效率生产质量中国冷弯大口径X70管线钢

基于Spark的分布式机器学习平台研究与实现

其他学术论文