【摘 要】
:
支持向量机算法是常用的机器学习算法之一,被广泛地应用于数据处理中的回归问题。本文在支持向量回归机的基础上,对目前出现的一些问题进行了分析,并提出了一种新的数据预处理的方法。随着大数据时代的到来,虽然海量的数据提高了算法模型精确度,但同时也带来了计算量和内存需求过大的问题,这限制了支持向量机方法的应用。同时,随着数据量的增多和模型精确度要求的提高,支持向量机算法还产生了模型泛化能力差、拟合程度不易控
论文部分内容阅读
支持向量机算法是常用的机器学习算法之一,被广泛地应用于数据处理中的回归问题。本文在支持向量回归机的基础上,对目前出现的一些问题进行了分析,并提出了一种新的数据预处理的方法。随着大数据时代的到来,虽然海量的数据提高了算法模型精确度,但同时也带来了计算量和内存需求过大的问题,这限制了支持向量机方法的应用。同时,随着数据量的增多和模型精确度要求的提高,支持向量机算法还产生了模型泛化能力差、拟合程度不易控制等问题。所以,对数据先进行预处理对支持向量机算法变得非常重要。在使用支持向量机算法解决问题时,含噪声的空间密度聚类(Density-Based Spatial Clustering of Applications with Noise,简称DBSCAN)算法是常用的数据预处理算法。本论文在DBSCAN算法的基础上,引入卷积,提出了一种新的预处理算法。该算法可以构造一个样本数量和特征维数都有所减少的新样本集,新的样本集不但基本保留原始数据的信息,而且改善了样本的分布。从而,利用我们新的预处理算法来处理数据,可以减少支持向量回归机算法所需的内存,同时增强回归函数的泛化性能。本论文文详细阐述了我们新的预处理算法的合理性和可行性,并对我们的新算法与其他常用的支持向量机预处理算法进行了对比实验。
其他文献
目的:本研究基于“肺与大肠相表里”理论,应用“提壶揭盖”法,予常克教授经验方“葶苈丸加味”治疗小儿便秘(痰热型),研究该方案的临床疗效、安全性及复发率,探讨其可行性、
在解析数论中,研究等分布理论,L-函数的零点分布等问题,自然会涉及到非线性指数函数的振荡问题.我们通常考虑一般的非线性指数和,其形如这里,n~X 表示 X ≤ n ≤ 2X,且e(z)=e2πiz.当β=1/2,Vinogradov[12]研究了关于von Mangoldt函数an=A(n)的非线性指数和S(X,α)的振荡问题.对于an=A(n)和an=p(n)(μ为莫比乌斯函数)的情形已经被Iw
随钻声波测井广泛应用于海上钻井作业。地层纵波测量中常使用单极子声源,但单极子声源会激发沿钻铤传播的钻铤模式波,对纵波的测量造成不利影响,为了消除钻铤模式波的影响,本
在日趋严格的环保法规及标准制约下,“废弃物资源化”与“废水达标排放”已成为炼化行业可持续发展的两大瓶颈。本研究以炼化行业剩余活性污泥(Excess Activated Sludge,EAS)
荧光分子断层成像是分子影像领域中的一种光学成像模态,其通过外置的光源照射生物体内的荧光团发光,然后用探测器测量体表的荧光强度,最后通过求解逆问题来重建荧光团在生物体内的三维分布。然而由于测量的荧光数据局限于体表,生物组织对光的散射和吸收作用以及测量噪声的存在,导致重建问题的病态性严重,重建的荧光团边缘比较模糊,目标识别较为困难。尽管设置较多的激发点可以测量更多的数据从而提高重建的质量,但其增加了数
天目铁木(Ostrya rehderiana)是中国东南部唯一的铁木属植物,目前仅存位于浙江临安西天目山保护区的5棵野生成年植株,是国家重点保护植物。5株植株中仅1株能够正常结种、种子
随着社会的发展,人们对林产品资源的需求量不断增加,我国南方大力发展以钩栗(Castanopsis tibetana Hance)为主要珍贵树种的速生、丰产用材林。以永龙界国有林场50a钩栗天然
大肠埃希氏菌能够引起动物和人的大肠杆菌病。它广泛存在于动物和人的肠道中,既属于肠道常驻菌,又是一种条件致病菌,一些特殊的血清型或者其他非传染性条件和传染性病原诱发动物和人感染此菌。为研究诸城地区的水貂、狐狸、貉子中大肠杆菌的流行病学情况以及分离菌株之间的遗传相关性,于2017年8月份从诸城地区三个距离较近的养殖场共采集粪便样品182份,其中水貂养殖场采集78份、狐狸养殖场采集97份、貉子养殖场采集
软土地区由于土体强度参数较低、工程性质较差,传统的预应力高强混凝土管桩(PHC管桩)承载力较低。预应力高强混凝土竹节桩(PHDC桩)是一种变截面桩,其桩身竹节的存在能够改善
由多子小瓜虫(Ichthyophthirius multifiliis)(简称小瓜虫)寄生于淡水鱼体表和鳃引起的小瓜虫病是危害最大的鱼类寄生虫病之一。小瓜虫具有具有分布广、无宿主专一性等特点,不仅