基于模糊分割和集成学习的分类和回归算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:echo1108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)算法因其良好的小样本学习能力,方便简洁的非线性处理能力,以及收敛过程无局部极小等优点赢得了学术界的广泛关注。它以最小化结构风险为目标,以求解二次规划问题为途径,有效获取训练样本集中的统计信息。然而由于SVM求解过程中所有训练样本被平等对待,而其最优解仅由少数样本决定,导致其对噪声点和异常点非常敏感。本论文以解决噪声点和异常点对SVM的影响为目标,对分类和回归两种学习问题进行了研究。 对于带噪声点和异常点的二分类问题,本论文提出基于模糊分割和集成学习的分类算法。其主要思路是:首先,基于模糊聚类的有效性指标用模糊c均值聚类算法分别对训练集中的正负类样本聚类,自适应得到训练集的最优分割和样本的模糊隶属度;然后,根据聚类结果构造多个子分类问题,用支持向量机求解得多个子分类器;最后,对多个子分类器用集成学习策略对待识别样本进行预测。此算法中模糊聚类根据训练集样本分布特征自适应得到训练集的最优分割和训练样本的模糊隶属度,无需人为干预;集成学习策略利用对待识别样本有用的信息而降低无用信息的影响,有助于提高预测精度。文中给出了两种分类器构造和集成学习策略,数值试验验证了所提算法的有效性。 对于带噪声点和异常点的回归问题,本论文提出基于模糊分割和集成学习的回归算法,其思路与针对分类问题提出的算法类似。首先,对训练集进行聚类;然后,根据聚类结果求解得多个子回归机;最后,用集成学习策略对未知样本进行预测。文中给出两种集成学习策略,数值试验证明此算法在不丢弃训练样本信息的情况下可以降低噪声点和异常点对支持向量机的影响。鉴于基于模糊分割和集成学习的回归算法对降低噪声点和异常点影响的有效性,针对Suykens等人的加权最小二乘支持向量机(WLS-SVM)依赖于预训练结果的问题,基于模糊分割和集成学习,本文提出两种WLS-SVM的改进算法,数值试验验证了改进算法的有效性。
其他文献
自适应群团抽样方法是一种对观测目标进行自适应抽样的方法。它利用了观测目标稀有且呈聚集分布的特点,比传统的抽样方法有更高的效率。这种方法通过给定参数,将总体唯一地划分
本文定义了Gibbs系数,用来在一定的意义下测量Gibbs现象。之后,以一些经典的三角多项式序列为例,计算了Gibbs系数。
本文是基于中国-香港,芬兰和美国在国际学生评价项目(PISA)第二次测评(PISA-2003)中的数据对学生的数学能力进行分析.首先,用多水平模型对这三个国家和地区学生的数学成绩进行
[目的]对水稻SDG711蛋白C末端进行原核表达,并制备其多克隆抗体。[方法]选取水稻SDG711蛋白抗原决定簇较密集的C末端进行原核表达,通过构建原核表达载体pET28a-711C,转化E.co
什么是美,美就是和谐,就是主观和客观的和谐统一.生活环境和谐美丽可以提高人们的生活质量和工作效率.作为教学的主阵地——课堂,同样也呼唤美.科学课程标准指出:科学课程内
本文利用GroSbner-Shirshov基研究两类非结合代数,即反交换代数和Akivis代数。全文由两章组成。 第一章给出了自由反交换(非结合)代数的合成钻石引理。利用这个引理得到了
本文通过统计分析与实证研究的方法调查高校青年学生对于志愿服务活动的参与与认知情况,据此分析基本特征,考查学生对于“服务性学习”的认知情况,并提出针对性的建议.
尽管从世界经济的角度来衡量,世界贸易自由化有利于全球生产力的提高,但是传统的世界贸易理论并未关注到:贸易自由化的过程既然是一个实现世界经济布局的最优化的过程,也必然
投资组合问题是指将可供投资的资金分配于多种证券上,以使不同类型的投资者寻求所能接受的收益和风险相匹配的最适当、最满意的证券组合。由于衍生证券在投资组合中的地位越
随着计算机技术的飞速发展,现实生活中存在的多种形态的大规模数据成指数级增长。如何对海量、稀疏、低秩、含噪声的数据进行快速有效地处理,进而从中提取出对人们有价值的数