基于Hodoop平台的并行增量式支持向量机学习算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：jsrgchf

【摘要】

：

支持向量机是在统计学理论基础上发展起来的一种新型学习算法，已在机器学习、模式识别等领域取得了较好的应用效果，然而随着训练数据集规模的不断增大，支持向量机也表现出学习效

【作者】

：

梁竹

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2012年期

【关键词】

：

支持向量机 Hodoop平台并行增量学习算法 Bagging技术仿真实验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

支持向量机是在统计学理论基础上发展起来的一种新型学习算法，已在机器学习、模式识别等领域取得了较好的应用效果，然而随着训练数据集规模的不断增大，支持向量机也表现出学习效率低下等缺点。针对这一问题，人们分别提出了增量学习和并行学习的解决方法。增量学习能较好地适应数据的动态特性，并行学习能加快对大规模数据集的学习速度。但是，对同时兼具规模大、动态增长的大数据对象而言，这两种算法仍然面临学习速度较慢的问题。本文在增量学习和并行学习的基础上，结合Hadoop平台处理大数据的优势，对大数据下支持向量机方法进行了深入研究，具体内容如下:　　 (1)提出一种基于Bagging技术的并行增量式SVM学习算法BPISVM。算法一方面将增量学习过程并行化执行，提高其学习速度，另一方面尽量增加各子分类器的分类信息来提高其学习精度。算法首先对训练数据并行学习得到多个子分类器，增量学习时用增量集并行地更新所有子分类器，保证每个子分类器都能够获得增量集中包含的新分类信息，更新方法为分别从增量集和原训练数据中寻找潜在支持向量，与已有的支持向量集合并在一起进行重新训练，尽量保证分类信息不丢失。算法基于MapReduce框架实现，仿真实验结果表明，算法在有效保证学习精度的前提下，减少了计算内存开销，降低了学习次数，提高了学习速度。　　 (2)提出一种基于AdaBoost技术的并行增量式SVM学习算法ABPISVM。算法的增量学习与并行学习阶段都通过相同的学习过程得到带权重的分类器。增量学习时，先对增量集学习得到新的分类器，将其结果与已有分类器进行比较，从而淘汰部分权重较低的分类器，仅保留权重较高的分类器作为增量学习的结果;为补偿未进行分类器更新带来的分类信息损失，算法采用AdaBoost技术提升单个子分类器的性能。虽然AdaBoost增加了迭代过程，需要一定的时间开销，但是由于算法不需要更新分类器，其综合学习速度得到了提高。仿真实验结果表明，该算法有较好的增量学习能力，显著提高了学习速度。　　 (3)设计并实现了一个基于Hadoop的海量数据挖掘系统。该系统采用B/S架构，能够运行本文所提出的两种算法，并具有良好的可扩展性。

其他文献

软件智能升级系统研究与实现

随着软件开发的发展，系统结构的日益庞大，漏洞修复和新功能的扩充将贯穿于整个软件生命周期，软件升级作为软件维护的重要支撑起到了不可或缺的作用。现在越来越多的软件具备了自

学位

计算机网络云计算系统软件升级程序设计

MRI医学图像的三维重建

近年来，随着计算机相关技术及图形图像技术的广泛应用，医学图像的质量和显示方式得到了极大的改善，从而借助于图像处理与分析技术使得诊疗水平大大提高。医学图像的三维可视化是

学位

医学影像图像处理三维重建图像分割

并行网络文件系统中负载均衡机制的研究与实现

负载均衡技术是并行文件系统中常见且不可或缺的重要优化手段。在并行文件系统中实现副本技术，利用负载分析方法和调度算法，可以有效地将系统中各种负载均衡地分配到各存储节点

学位

并行网络文件系统负载均衡分布式存储副本

基于抗量子密钥交换协议的SSH协议的研究与实现

随着互联网技术的发展和网络规模的扩大,人们对远程登录的需求也变得十分迫切,很多企业、组织对网络设备以及服务器的管理都需要使用远程登录服务。因此远程登录技术成为了非

学位

SSH协议密钥交换算法R-LWE格抗量子攻击

虚拟机备份系统中存储空间的优化

随着科学技术的快速发展，越来越多的企业或单位开始利用虚拟机搭建数据中心来应对日益增长的计算需求。然而，随着数据中心虚拟机数目的不断增加，单个虚拟机发生故障从而导致整个

学位

虚拟机备份重复数据删除数据段相似性

基于语义相关性视觉单词的图像表达方法研究

视觉物体表示(visual object representation)是联系底层图像信息和高层语义概念之间的纽带，在物体识别、图像检索等计算机视觉任务中起着关键性的作用。基于鲁棒性局部图像特

学位

物体识别词包模型视觉词组图像分类自适应聚类算法

银行业务互联原型系统设计与实现

在现在的经济社会中,大量的商品和服务的支付都需要使用银行交易业务。银行系统在金融机构中的作用越来越重要,这直接关系到金融机构的盈利和为其客户提供便利服务。世界银行

学位

几内亚银行业务管理数据库系统Web服务

鲁棒非负矩阵分解算法研究

随着互联网的发展,大数据时代悄无声息地走到了我们身旁,每天用户各种各样的行为产生了数以亿计的数据,这其中就包括了社交信息,购物信息以及浏览信息等。大量数据中包含着很

学位

数据挖掘非负矩阵分解噪声数据截断式非负矩阵分解双重截断式鲁棒分矩阵分解

高速移动下基于链路反馈的网络拥塞算法研究

随着高速铁路的快速发展,高速移动通信网络成为高速铁路信息化建设的重要方向之一。高铁移动通信网主要分为铁路专网和用户开放式网络。本文根据特定的用户开放式高铁移动通

学位

高速移动网络拥塞GTRED算法HSTCP算法Pre-HSTCP算法

移动搜索系统中基于DOM的自动网页卷滚

现在移动手机的使用已经在我们日常生活中广泛地传播，我们利用移动手机作为照相机，收音机，随身听以及浏览网络的工具。由于大部分的网页是为桌面计算机设计的，很难用小的屏幕设备

学位

移动用户文档对象模型词频-逆文档频率朴素贝叶斯分类器正态分布

基于Hodoop平台的并行增量式支持向量机学习算法研究

其他学术论文