基于集成学习的覆盖算法研究

被引量 : 0次 | 上传用户:tiantanghao001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类和聚类是两种重要的数据挖掘技术,分类是对数据集中具有同样类标号的数据建立规则或模型,通过这些规则或模型能对数据正确分类。聚类是通过相似度对没有类别标号的数据集中数据进行分组,使得组内对象相似度高而组间相似度低。构造型神经网络是一种新型的神经网络,它将网络功能划分成若干独立的功能模块,整个网络可以分层逐步构造。相对于传统神经网络,构造型神经网络具有大规模网络构建相对简单、易理解、内部功能模块相对独立、设计简单、可并行处理等特点,在解决海量数据、解决传统神经网络结构复杂、训练速度慢、扩展神经网络应用领域等方面显示出了巨大的优势和潜力。基于覆盖思想的构造型神经网络是从神经元模型几何意义出发而提出来的,它的核心是领域覆盖算法,算法首先是逐步在样本集的投影域构造出只含同类数据的“球形区域”,然后再将具有共同类标号的“球形区域”组成统一的输出。集成学习技术是利用多个学习器来解决同一个问题,这样可以显著地提高学习系统的泛化能力以及稳定性。传统的覆盖算法并不能实现对增量样本的学习过程,本文提出基于集成学习的覆盖增量学习算法,通过样本权值的设置加大对新增样本的学习,并针对不同情形的增量样本给出对应的算法,成功实现覆盖算法对增量样本的学习过程。针对传统领域覆盖算法因为“球形区域”过多导致“拒识样本”过多,交叉覆盖算法因为本身构造时过分依赖训练样本而导致泛化能力较差的问题,本文提出基于集成学习的覆盖算法,该算法一方面大大减少了“拒识样本”,另一方面也显著提高了算法的泛化能力。覆盖聚类算法是将传统的领域覆盖算法应用于聚类分析,是利用聚类数据局部聚集的特性进行聚类的算法,算法具有聚类快速、参数设置相对简单的特点,本文利用覆盖聚类算法为K-means算法探索初始中心,改进后的算法不仅可以显著降低K-means的迭代次数,而且还有助于发现K-means的最佳聚类效果。针对覆盖聚类算法聚类效果不理想的问题,本文结合覆盖算法本身特点,提出基于“中心匹配”的新的簇标号匹配方法,并在此基础上提出基于集成学习的覆盖聚类算法,该算法可以提高覆盖算法的聚类效果。覆盖算法的分类或者聚类结果就是得到若干个“球形区域”,因此衡量分类器或聚类器的差异性,也就变成衡量“球形区域”的差异性,而“球形区域”是通过中心和半径来确定,本文由此出发,提出了基于中心相似的差异性度量方法,来实现覆盖分类和聚类算法的选择性集成学习,改进后的算法可以大大减少用于集成的个体学习器的个数。
其他文献
<正>语文是我国的母语课程,她既是一门让学生学习语言知识的课程,又是能陶冶情操、获得智慧的文化课程。学好语文尤为重要。作为一名小学语文教师,在孩子的母语启蒙阶段,应该
本文第一部分对尼采用阿波罗和狄奥尼索斯解释希腊悲剧的部分进行整理,以期更接近高贵的经典,在更好的悲剧之书出现之前,《悲剧的诞生》就是最好的,也为理解解读悲剧之书所需
根据目前已发表的考古资料,商周时期原始瓷器主要发现于两大区域,即以黄河中下游为中心的北方地区和以长江中下游为中心的南方地区。黄河中下游地区商周时期原始瓷器的发现较
<正>2007年12月19日,由新闻出版总署组织的"中国出版业高级管理培训"学习活动圆满结束。承办这期培训活动的是美国纽约大学出版中心,学习内容涵盖图书出版、图书营销、出版业
伴随着全社会环境保护意识的加强以及对生活品质的要求,现代木结构建筑逐渐受到了大家的关注,并且也越来越多地应用到了实际建筑中。特别是在西方发达国家,木结构建筑的普及
随着市场经济的不断发展以及市场营销理论研究与实践的深入,零售业为社会及广大消费者提供了日益丰富的产品,提高了人们的生活水平,甚至改变了人们的生活方式,为社会做出了极
<正>一位艺术家曾说,嗓音的力量是不可估量的,任何图画的感染力永远也比不上舞台上正确发出的一声叹息那样动人。把这句话延伸到小学音乐课堂中来,我们可以理解为课堂评价在
随着世界经济重心向服务业的倾斜,全球产业发展呈现出了崭新的迹象,即国际产业重心开始逐步从制造业向服务业转移。服务业在国民经济中地位的不断上升和发展促进和带动了服务
目的:目前艾滋病HAART治疗相关高脂血症的中医药证候研究及治疗方面尚属空白,本研究在国家“十一五”重大专项,及国家重点基础研究发展计划专项资助下,通过对未感染HIV高脂血
[案情]2015年7月24日凌晨,冯某与其朋友胡某、刘某、史某等8人在KTV饮酒后,胡某提议:“心情不好,我去网吧里找一个人,咱们打他一顿出出气。”8人遂来到登封市区一网吧附近,商