基于Spark的分布式机器学习平台研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:iloveyouguoran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络在各行各业的广泛应用,收集管理数据变得越来越容易,数据的规模也在成倍的增长。在分析决策、人工智能等领域,这些规模庞大的数据发挥着日益重要的作用。机器学习方法是处理、分析大数据的常用手段,是人工智能的核心研究方向,因而构建一个高效的分布式机器学习平台显得尤为重要。本文设计并实现了一个分布式机器学习平台LIBBLE-Spark。该平台基于Spark实现,充分利用了 Spark基于内存计算的特点,并且能够深度融合入Spark数据处理流水线中,减少数据存取时间。LIBBLE-Spark包含有以下三点主要工作:一、基于Spark平台实现了常用的回归、分类、聚类等多种算法。在回归与分类算法的实现上,我们应用了逻辑与框架更适合于Spark的SCOPE算法,从而使得算法模型优化过程具有收敛速度快、网络通信开销低等优点,大大提升了模型优化速度,模型优化速度远快于同类平台。同时LIBBLE-Spark为用户提供了自定义广义线性模型接口,方便用户实现自定义模型的快速优化。二、针对稀疏学习做出相应的优化实现。对于稀疏模型的学习,我们针对L1正则化的优化提出了惰性收缩(Lazy Shrinkage)策略,有效减少了在高维稀疏数据上采用近端梯度下降法优化的计算开销。三、针对生产环境机器性能表现不一、任务可抢断等情况,提出并在Spark上实现了部分同步协议(Partial Synchronous Parallel,PSP)。当出现机器性能表现不一及任务抢断所造成的慢节点现象时,PSP协议能够在不影响算法收敛的情况下有效地降低等待时间,加速优化进程。
其他文献
【摘要】随着新课改的不断推进,激发学生学习兴趣,优化小学语文课堂教学成为了小学语文教师共同探讨的话题,据此,本文探究如何在小学语文教学中激发学生的学习兴趣,以期为进一步优化小学语文课堂教学提供帮助。  【关键词】小学语文教学 激发学生学习兴趣 措施  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(2018)27-0134-02  笔者观点,要激发学生的学习兴趣,就必
运用有限时域差分方法,研究了两椭圆柱银纳米线之间的光力及其物理机制,并且分析了椭圆柱银纳米线的尺寸以及相对位置对光力的影响.结果表明:椭圆柱银纳米线的尺寸以及相对位
设计了一种以半导体材料InGaAsP作为核心结构的器件表面蒸镀二氧化硅膜层,在其上蒸镀金膜层,构成金属电介质半导体微盘激光器结构,盘面的厚度为2μm,盘面半径为6 μm ,盘壁侧
上海虹桥国际机场扩建工程西航站楼的建设分两期实施,均涉及到航空旅客在航站楼内部的交通出行问题,是否建设旅客捷运系统是一个规划控制因素以及服务水平的关键。建设航站楼
分析了阳泉市的暴雨洪水特征及其危害性,从阳泉市防洪排涝现状出发,提出了要树立“给洪水以出路”的理念及实现人与洪水和谐共处的观念。
在两气东输工程的建设中,我国首次采用大口径1016mm、高强度X70管线钢管铺设,在整个工程上用于改变管道走向的弯管有4000多个.这也是国内企业首次采用热煨工艺生产X70弯管,相