论文部分内容阅读
近些年来,随着科技的迅速发展,导致数据量的不断增多,这在无形中带来了很多的问题,比如很多数据需要进行分类和整理,单纯的依靠人工去分类这些数据将会产生非常大的工作量,给人们的工作和生活带来诸多的不便。而机器学习作为一个可以帮助人们解决这类问题的方法越来越引起了人们的关注。现如今,机器学习在疾病诊断、生物信息识别、地理信息系统等领域都得到了相关的应用和研究,为人们的生活和工作带来了很多的方便。集成学习作为一种可以将多个分类器整合的机器学习方法也在发挥着越来越重要的作用。一般集成学习系统相比较弱分类器个体来说,它的集成学习效果要好一些。因此之前关于集成学习的研究多集中于与弱分类器的结合,对于如何与SVM这种强分类器去进行有效地集成的研究并不多见。对此,本文所做出的工作主要可以分为以下几个方面:1、提出基于Bagging算法的SVM选择性集成结合Bagging算法以及选择性集成理论,提出基于Bagging算法的SVM选择性集成方法。首先通过Bagging算法的Bootstrap方式对原始数据集合进行选取,得到训练子集合,然后在原数据的特征集合中随机选取出特征子集合,并且在该训练子集合上进行投影,得到所需要的输入数据,通过这种改变输入样本的方式来解决弱化SVM分类器的问题,并且使得各个子分类器之间产生一定的差异性;其次,算法结合选择性集成的理论,对于产生的各个子分类器进行精度上的排序,选取出部分精度较好的子分类器进行集成,解决了集成的个体需要保证一定准确率才可提升整体性能的问题,使得整体性能得到改善,同时降低了所需的计算资源。2、提出基于Adaboost算法的SVM选择性集成结合Adaboost算法的迭代加权过程,以及选择性集成方法,提出基于Adaboost算法的SVM选择性集成方法。算法首先结合SVM的分类特点,将SVM分类中较难和较易分类的部分数据提供给Adaboost算法,同时在算法的迭代过程中根据准确率的计算来调整SVM的核参数,通过这两种方式解决在Adaboost算法中弱化SVM个体学习器的问题,同时解决个体学习器的差异性,以及预测准确性要保持在一定水平的理论问题;其次,在构成集成学习系统的过程中结合选择性集成方法,提出一种新的选取子分类器的方法,其通过将个体准确率与整体系统准确率进行比较,将符合整体准确率要求的子学习器加入到最终的集成学习系统中,改善系统的准确性,减小集成系统的规模。集成学习与强学习类型的分类器进行结合的主要问题就是如何达到集成学习中弱学习器、个体差异性以及准确性这三个方面的平衡,只有处理好这三个方面才可以达到较好的效果。