基于Hodoop平台的并行增量式支持向量机学习算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jsrgchf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是在统计学理论基础上发展起来的一种新型学习算法,已在机器学习、模式识别等领域取得了较好的应用效果,然而随着训练数据集规模的不断增大,支持向量机也表现出学习效率低下等缺点。针对这一问题,人们分别提出了增量学习和并行学习的解决方法。增量学习能较好地适应数据的动态特性,并行学习能加快对大规模数据集的学习速度。但是,对同时兼具规模大、动态增长的大数据对象而言,这两种算法仍然面临学习速度较慢的问题。本文在增量学习和并行学习的基础上,结合Hadoop平台处理大数据的优势,对大数据下支持向量机方法进行了深入研究,具体内容如下:   (1)提出一种基于Bagging技术的并行增量式SVM学习算法BPISVM。算法一方面将增量学习过程并行化执行,提高其学习速度,另一方面尽量增加各子分类器的分类信息来提高其学习精度。算法首先对训练数据并行学习得到多个子分类器,增量学习时用增量集并行地更新所有子分类器,保证每个子分类器都能够获得增量集中包含的新分类信息,更新方法为分别从增量集和原训练数据中寻找潜在支持向量,与已有的支持向量集合并在一起进行重新训练,尽量保证分类信息不丢失。算法基于MapReduce框架实现,仿真实验结果表明,算法在有效保证学习精度的前提下,减少了计算内存开销,降低了学习次数,提高了学习速度。   (2)提出一种基于AdaBoost技术的并行增量式SVM学习算法ABPISVM。算法的增量学习与并行学习阶段都通过相同的学习过程得到带权重的分类器。增量学习时,先对增量集学习得到新的分类器,将其结果与已有分类器进行比较,从而淘汰部分权重较低的分类器,仅保留权重较高的分类器作为增量学习的结果;为补偿未进行分类器更新带来的分类信息损失,算法采用AdaBoost技术提升单个子分类器的性能。虽然AdaBoost增加了迭代过程,需要一定的时间开销,但是由于算法不需要更新分类器,其综合学习速度得到了提高。仿真实验结果表明,该算法有较好的增量学习能力,显著提高了学习速度。   (3)设计并实现了一个基于Hadoop的海量数据挖掘系统。该系统采用B/S架构,能够运行本文所提出的两种算法,并具有良好的可扩展性。
其他文献
随着软件开发的发展,系统结构的日益庞大,漏洞修复和新功能的扩充将贯穿于整个软件生命周期,软件升级作为软件维护的重要支撑起到了不可或缺的作用。现在越来越多的软件具备了自
近年来,随着计算机相关技术及图形图像技术的广泛应用,医学图像的质量和显示方式得到了极大的改善,从而借助于图像处理与分析技术使得诊疗水平大大提高。医学图像的三维可视化是
负载均衡技术是并行文件系统中常见且不可或缺的重要优化手段。在并行文件系统中实现副本技术,利用负载分析方法和调度算法,可以有效地将系统中各种负载均衡地分配到各存储节点
随着互联网技术的发展和网络规模的扩大,人们对远程登录的需求也变得十分迫切,很多企业、组织对网络设备以及服务器的管理都需要使用远程登录服务。因此远程登录技术成为了非
随着科学技术的快速发展,越来越多的企业或单位开始利用虚拟机搭建数据中心来应对日益增长的计算需求。然而,随着数据中心虚拟机数目的不断增加,单个虚拟机发生故障从而导致整个
视觉物体表示(visual object representation)是联系底层图像信息和高层语义概念之间的纽带,在物体识别、图像检索等计算机视觉任务中起着关键性的作用。基于鲁棒性局部图像特
在现在的经济社会中,大量的商品和服务的支付都需要使用银行交易业务。银行系统在金融机构中的作用越来越重要,这直接关系到金融机构的盈利和为其客户提供便利服务。世界银行
随着互联网的发展,大数据时代悄无声息地走到了我们身旁,每天用户各种各样的行为产生了数以亿计的数据,这其中就包括了社交信息,购物信息以及浏览信息等。大量数据中包含着很
随着高速铁路的快速发展,高速移动通信网络成为高速铁路信息化建设的重要方向之一。高铁移动通信网主要分为铁路专网和用户开放式网络。本文根据特定的用户开放式高铁移动通
现在移动手机的使用已经在我们日常生活中广泛地传播,我们利用移动手机作为照相机,收音机,随身听以及浏览网络的工具。由于大部分的网页是为桌面计算机设计的,很难用小的屏幕设备