层叠支持向量机优化及并行化实现

来源 :兰州大学 | 被引量 : 3次 | 上传用户:ftlfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的——层叠支持向量机作为一种并行支持向量机,通过全局问题分解、非支持向量过滤以及反馈来提高支持向量机在大规模数据上的训练效率。层叠支持向量机在大多数应用上能够得到一定精确度的支持向量机模型,在少数应用上需要通过多次反馈迭代得到相应的模型。从最终的训练结果来看,层叠支持向量机训练的模型精确度以及算法的稳定性相比于单机训练都有待提高。为了解决上述问题,提出基于交叉验证的层叠支持向量机,并分别实现了层叠支持向量机以及基于交叉验证的层叠支持向量机的并行化过程。方法——层叠支持向量机的实现过程中,初始的随机划分过程与两个支持向量机的合并算法都将对最终的训练结果产生不同程度的影响。通过分析与实验,将分别从上述的两方面进行扩展与优化。对于并行化过程,则考虑基于Spark平台实现。研究结果——首先,层叠支持向量机的初始随机划分在极端情况下,可能会削减最终的全局支持向量的数量。因此,提出限制的随机划分算法,通过限制初始划分后每个子集中正负样例所占的比例来避免其对最终模型的影响;其次,在两个支持向量机合并时,考虑除了支持向量以外的“特异点”,即一个子集中的非支持向量违背另一个子集训练结果的点,提出了交叉验证的合并算法;然后基于对这两方面的扩展,提出了基于交叉验证的层叠支持向量机。最终,在Spark平台上实现了层叠支持向量机与基于交叉验证的层叠支持向量机的并行化过程,并通过在不同数据集上的实验验证了基于交叉验证的层叠支持向量机的有效性以及稳定性。研究的局限性——对于初始划分对最终模型的精确度影响的研究仍然处于较浅显的层次,不能够从理论上保证划分后的子集的分布与原始数据的分布相似。同时,在并行化的实现过程中,虽然能够保证多个子集的并行训练,但是每个子集所采用的训练算法的并行化过程仍有待研究与扩展。实际影响——通过对层叠支持向量机的研究与扩展,在保证不大大降低训练效率的前提下,可以使其得到最终模型的精确度接近单机训练得到的模型。独创性——提出限制的随机划分算法来避免极端划分情况下对全局支持向量的削减;通过交叉验证对原有的合并算法进行扩展,得到了交叉验证的合并算法;上述两方面的优化最终得到了基于交叉验证的层叠支持向量机;通过分布式计算引擎Spark实现并行的训练与预测过程,实现了传统层叠支持向量机和基于交叉验证层叠支持向量机的并行化。
其他文献
本文以大豆、玉米和小麦为研究对象分析了国内外粮食期货的波动特征、关联性和传导机制。研究表明国内外粮食期货价格波动均具有波动聚类、非对称和长记忆特征,但显著程度存
随着全球一体化的发展,艺术设计领域中迎来了一次又一次的革新与进化。时尚符号在平面视觉语言中的应用性研究,引起了越来越多的企业、传媒及消费群体的关注与思考。文章试研
教育全球化表现为教育资源、观念、内容与手段、文凭等的全球化。教育全球化将对中国的教育模式、形式、关系、语言、经济、文化、政治等带来挑战和影响。中国教育如何创新来
双酚A(BPA)是一种公认的环境内分泌干扰物,具有类雌激素效应。双酚A是一种应用很广的工业原料,主要用于合成聚碳酸酯、环氧树脂、增塑剂等物质的前体物质,随着工业污水大量进
多媒体教学与传统教学方法相比,有很多优点,也有许多弊端。通过分析多媒体教学的利与弊,提出了应用多媒体开展教学的几点建议。
案号:(2010)二中民初字第19736号(2011)高民终字第1126号$$    【裁判要旨】$$    在方法专利侵权纠纷中,对于举证责任倒置的适用是以构成新产品为前提,若专利权人不能证明
报纸
随着目前科技和网络的飞速发展,嵌入式系统这一名词逐渐被大众所熟悉与了解,嵌入式系统在生活中应用十分广泛,它凭借其体积小,实用方便的特点受到越来越多人的青睐。尤其是在
针对工业全要素生产率省际显著分化趋势,文章通过引入劳动力迁徙因素,采用数据包络分析与具有时变特征的面板固定效应、广义最小二乘等计量模型,从劳动力迁徙导致的资本与劳
随着我国城市化程度不断加深,大城市街区正呈现出高密度化的趋势,这导致城市户外风环境和声环境日益恶化,城市街区的自然通风和声环境品质越来越得到人们的重视。然而现阶段建筑师和规划师开展城市设计工作过程中较少地考虑风环境和声环境效果,这主要是由于相关理论研究往往没有与设计实践紧密结合。城市空间形态对风环境和声环境品质起到重要的影响作用,以往的研究表明,空间形态的改变会引起风环境和声环境相反的变化结果,这
国务院发布的《关于依托黄金水道推动长江经济带发展的指导意见》中明确指出:“推进一体化市场体系建设,进一步简政放权,清理阻碍要素合理流动的地方性政策法规,打破区域性市