论文部分内容阅读
集成学习利用多个学习器来解决问题,可以有效提高学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G.Dietterich称为当前机器学习四大研究方向之首。作为一种新的机器学习范式,集成学习以其良好的性能和广泛的适用性,在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用。以往集成学习的研究主要集中在监督学习上,这种学习方式需要大数据量的有标记训练样本。但是在某些实际的训练过程中,大数据量的有标记样本往往难以获得。而对于小数据量的有标记训练样本,集成学习的效果往往又不理想。因此,针对小数据量的有标记样本问题,如何提高集成学习的性能仍然是一个值得研究的问题。针对训练过程中存在大量未标记样本的情况,本文结合半监督学习和选择性集成学习的思想,提出了一种基于半监督回归的选择性集成算法SSRES。一方面,充分利用大量廉价的未标记样本来辅助有标记样本的学习,另一方面,使用选择性集成学习进一步提高学习系统的泛化能力。本文主要对基于半监督回归的选择性集成学习进行了相关研究,主要研究工作包括:(1)在对当前集成学习方法进行深入分析的基础上,基于Weka实验平台,利用Weka数据集对Boosting和Bagging算法的有效性进行了验证,从而也进一步验证了集成学习的有效性。(2)在对选择性集成学习和半监督学习进行深入研究的基础上,基于Eclipse+Weka开发平台,实现了选择性集成算法GRES和半监督回归算法COREG,并利用Weka数据集和人造数据集对算法的有效性进行了验证。(3)基于以上研究,针对小数据量的有标记样本问题,提出了一种基于半监督回归的选择性集成算法SSRES。基于Eclipse+Weka开发平台,实现了SSRES算法,并利用Weka数据集和人造数据集对SSRES算法性能进行了分析。实验结果表明,SSRES算法能够利用未标记样本和选择性集成技术提高学习器的性能。(4)在实际应用方面,针对混凝土行业配合比数据中未试验数据很多而已试验数据可能很少的特点,将SSRES算法应用到混凝土强度预测从而利用未试验数据提高预测精度。通过基于真实配合比数据的实验表明,该方法能够有效提高混凝土强度的预测精度,从而有助于实现配合比的优化。