基于MapReduce的非线性支持向量机分类算法研究

被引量 : 0次 | 上传用户:boluoxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,SVM)算法是数据挖掘及机器学习领域中健壮性和稳定性较好的高精度算法,能够非常成功地处理分类和回归问题。然而,非线性SVM分类算法是一个计算密集型算法,仅适用于小样本统计学习问题。面对当今实际问题中的大数据集,本文旨在保持非线性SVM算法分类精度的基础上提高其处理能力及运行效率。在对标准SVM算法及MapReduce编程模型进行深入分析的基础上,本文进行了如下研究工作并取得了一定的成果。首先,为了提高串行非线性SVM算法的数据处理能力及运行效率,提出了基于MapReduce的并行SVM(MR-SVM)算法。通过均匀划分数据集,在各数据分片上利用map任务并行求解支持向量集SVs,而后联合各分布式训练结果利用一个reduce任务执行SVM重训练得出SVM分类器。其中联合重训练使得算法能自动收敛。其次,为了弥补MR-SVM算法中分布式训练带来的精度损失,提出了基于MapReduce的并行迭代SVM(MR-C-SVM)算法。引入了迭代计算机制,通过反馈循环训练直至算法收敛于全局最优解。迭代过程中利用KKT条件筛选数据集的操作减少了重复计算。再次,为了满足在线学习的需求及克服集群存储容量无法满足需求的难题,在MR-SVM算法和MR-C-SVM算法的基础上,提出了基于MapReduce的并行增量迭代SVM(MR-II-SVM)算法。此外,对MapReduce进行了支持迭代的扩展及针对MR-C-SVM算法的改进。最后,在理论上证明了MR-C-SVM算法收敛于全局最优解。对MR-II-SVM算法的各项流水线性能指标进行了计算分析。基于SpamBase数据集及MINIST数据集的实验表明,MR-C-SVM算法在保持标准SVM算法精度的同时提高了数据处理能力及运行效率,并超过了其它基于MapReduce的并行SVM算法的精度;MR-II-SVM算法在加速比和运行效率方面比同类高精度算法具有明显优势。
其他文献
目的利用结构方程模型初步探讨主观应激、社会支持、应对方式对急救人员心身健康的影响。方法用中文版的知觉压力量表、社会支持评定量表、简易应对方式问卷和SCL-90,随机抽
<正>公文是处理公务的文书,是传达和贯彻党和国家的各项方针政策,联系和处理工作的重要工具.公文处理在秘书部门的各项工作中,是最基本也是工作量最大的一项.公文处理是否规
目的观察中药内服灌肠外加针灸治疗慢性盆腔炎的效果。方法选用2010年1月至2014年6月来我院治疗并符合慢性盆腔炎诊断标准的78例患者,采用汤药内服灌肠外加针灸相结合的方法,
目的:充分了解黄芩苷的溶解性质,为黄芩苷类制剂的研究设计提供依据。方法:采用HPLC法测定黄芩苷在各溶媒中的溶解度,考察温度、pH值、表面活性剂等对其溶解度的影响,利用溶
<正>慢性性肾盂肾炎近年耐药菌株不断产生。在抗生素治疗的基础上,泉州市中医院肾内科中西医结合治疗慢性肾盂肾炎35例取得了良好的效果,明显提高了疗效,同时延缓肾功能损害
目的探讨持续气压治疗预防重症中暑患者下肢肌肉萎缩的护理效果。方法回顾性分析28例重症中暑患者持续气压治疗对预防下肢肌肉萎缩效果的临床资料。结果 28例患者无1例发生下
我国逃税犯罪总量大,涉案金额巨大,而且呈现主体多元化,作案手段多样,流动性强,与多种犯罪交织等特点,危害严重。及时研究逃税犯罪的防控对策,提高公安机关防范和打击逃税犯
不同的所有权结构对公司经营的激励与监控机制、公司控制权市场的竞争与代理权的争夺以及公司文化治理等公司治理机制关键层面的影响具有明显差异 ,公司在其成长与发展进程中
目的观察中西医结合治疗慢性盆腔炎的临床效果。方法选取2013年3月至9月我院诊治的慢性盆腔炎患者120例,随机分为观察组和对照组各60例。对照组采取西医方法进行常规治疗,观
目的制备一种新型非降解的纳米羟基磷灰石/聚酰胺66/玻璃纤维(nano-hydroxyapatite/polyamide66/glass fiber, n-HA/PA66/GF)生物接骨板,通过体内外实验评价该接骨板的生物相容