基于半监督回归的选择性集成算法及其应用研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:skyaixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习利用多个学习器来解决问题,可以有效提高学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G.Dietterich称为当前机器学习四大研究方向之首。作为一种新的机器学习范式,集成学习以其良好的性能和广泛的适用性,在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用。以往集成学习的研究主要集中在监督学习上,这种学习方式需要大数据量的有标记训练样本。但是在某些实际的训练过程中,大数据量的有标记样本往往难以获得。而对于小数据量的有标记训练样本,集成学习的效果往往又不理想。因此,针对小数据量的有标记样本问题,如何提高集成学习的性能仍然是一个值得研究的问题。针对训练过程中存在大量未标记样本的情况,本文结合半监督学习和选择性集成学习的思想,提出了一种基于半监督回归的选择性集成算法SSRES。一方面,充分利用大量廉价的未标记样本来辅助有标记样本的学习,另一方面,使用选择性集成学习进一步提高学习系统的泛化能力。本文主要对基于半监督回归的选择性集成学习进行了相关研究,主要研究工作包括:(1)在对当前集成学习方法进行深入分析的基础上,基于Weka实验平台,利用Weka数据集对Boosting和Bagging算法的有效性进行了验证,从而也进一步验证了集成学习的有效性。(2)在对选择性集成学习和半监督学习进行深入研究的基础上,基于Eclipse+Weka开发平台,实现了选择性集成算法GRES和半监督回归算法COREG,并利用Weka数据集和人造数据集对算法的有效性进行了验证。(3)基于以上研究,针对小数据量的有标记样本问题,提出了一种基于半监督回归的选择性集成算法SSRES。基于Eclipse+Weka开发平台,实现了SSRES算法,并利用Weka数据集和人造数据集对SSRES算法性能进行了分析。实验结果表明,SSRES算法能够利用未标记样本和选择性集成技术提高学习器的性能。(4)在实际应用方面,针对混凝土行业配合比数据中未试验数据很多而已试验数据可能很少的特点,将SSRES算法应用到混凝土强度预测从而利用未试验数据提高预测精度。通过基于真实配合比数据的实验表明,该方法能够有效提高混凝土强度的预测精度,从而有助于实现配合比的优化。
其他文献
目前医学影像已成为发展最快的技术领域之一,广泛应用于诊断和治疗,是现代医学中的重要手段和工具。医学图像处理是医学影像技术极为重要的一个环节,它能有效地对医学图像进
无线传感器网络(WSN)的路由协议是WSN领域中当前热门研究方向之一。虽然目前国内外提出了不少无线传感器网络路由算法,但是大部分的研究工作都是基于仿真平台对协议进行评估,
近年来,网络的发展和普及为我们的工作和生活提供了便利,但同时其安全性和可靠性成为我们关注的焦点。随着攻击者知识的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火墙
随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,
现阶段,国内各高校数字校园的建设不断深入,大学资源计划(URP)逐渐成为高校信息化建设的主流理念。数字化建设已经从过去的系统集成阶段发展到目前的应用集成阶段,高校数字化
在信息技术日新月异的今天,数据量呈几何式增长,数据的维数越来越高,使得信息更为充分的同时,也给数据挖掘算法带来了诸多挑战,尤其是对分类和聚类问题的影响较为突出。数据
录井数据记录了钻井过程中的各种信息,是地质分析解释、指导勘探开采的基础。随着计算机技术的发展以及录井行业的需求变化,传统的以二维图件来展示、分析、处理录井数据的方
术语集中承载特定领域的核心知识,术语的自动抽取能够辅助人们便捷地获得和积累该领域知识,而双语术语更是兼有两种语言的映射关系,因此双语术语自动抽取在自然语言处理中的
目前电力管理部门人工抄表系统存在诸多问题,需要一种智能抄表模式来代替人工抄表。本文重点研究抄表系统中的电表读数识别算法,主要研究内容和创新成果如下:首先,提出采用颜
随着Web规模呈爆炸性增长,特别是Web2.0的出现,用户生成内容大量增加,Web搜索结果出现了大量不可信结果。如何通过分析Web搜索结果的可信度进行Web搜索结果过滤,已成为一个亟待解