基于冗余度的KNN训练样本裁剪新算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:ysli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘领域十大算法之一,k-近邻算法(KNN)因具有非参数、无需训练时间、简单有效等特点而得到广泛应用。然而,KNN算法在面对高维的大训练样本集时,分类时间复杂度高的问题成为其应用的瓶颈。另外,因训练样本的类分布不均匀而导致的类不平衡问题也会影响它的分类性能。针对这两个问题,本文提出了一种基于冗余度的KNN分类器训练样本裁剪新算法(简记为RBKNN)。RBKNN通过引入训练样本集预处理过程,对每个训练样本进行冗余度计算并随机裁剪掉部分高冗余度的训练样本,从而达到减小训练样本规模、均衡样本分布的目的。实验结果表明,RBKNN可在保持或改善分类精度的前提下显著提升KNN的分类效率。
其他文献
基于2006—2016年安徽省农业GDP和农业生产能源消耗的基础数据,核算了在此期间安徽省农业生产能源消耗产生的碳排放总量,并利用Tapio脱钩指数分析了农业能源消耗碳排放与农业
新的《普通高中数学课程标准(实验)》与原《全日制普通高中数学教学大纲(试验修订版)》相比,有以下特点:对数学本质有了新的认识,这种新认识体现了一种动态的模式论的现代数学观
本文根据不压井修井技术,对不压井修井作业装备进行简单的叙述,主要包括工作原理、装备结构、装备型号等,并根据装备的不同特点以及当今的形势重点分析不压井修井装备的发展
随着科技的发展与人们对环境保护意识的提高,对病虫害处理时也更加注重防治方法的低毒性。其中,生物防治技术是一种无毒无害、不污染环境且高效的病虫害处理手段。从生物防治
一、问题背景数学中考压轴题一般指在试卷中出现的大题目,有填空、选择及综合压轴题之分,这类题目难度大,对知识点的综合运用能力要求高.在考试中能拉开学生的成绩,是很多学生和教
江西省是绿色金融改革示范基地,绿色金融发展对江西省文化产业结构调整具有关键性作用。根据江西省绿色金融发展现状,分析绿色金融发展对江西省文化产业结构调整的影响,提出
在互联网、数字化、大数据的带动下,新媒体迅速崛起,具有灵活的互动性、多样化的表达形式、不受空间和时间限制等特点。新的传播形式正在不知不觉的改变着人们的沟通和生活方式,以消费者为中心的营销策略在众多行业中快速蔓延。广告公司作为连接品牌和媒体的中介机构,其发展之路充满了机遇与挑战。一方面企业间竞争不断加剧,广告主急于寻求突围、转型,试图找到新的营销突破口,越来越多的广告主放弃了广告代理,而直接面对媒体
<正>学生是课堂的主体,是学习的主人。传统教学以师为本,结果使学生沦为学习的奴隶,使学生失去了学习的自主性,对学生的发展极为不利。学习任务单与翻转课堂以学生的自主学习
<正> 同治九年正月十一日刘松山身死,清军内部混乱,马化龙又得到临洮、靖远回民军来援,陕甘回民军趁势分途进攻,清军伤亡甚重。清军雷正绾、周兰亭、徐文秀、张文齐等四军的
现代汉语中,从词性的角度看,"地"是结构助词;从语法成分的角度看,它是状语的标志。作为助词没有实际的组合能力,要与实词、短语、句子等语言单位相搭配,而且与其他"的、得"结