论文部分内容阅读
最近邻K(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一,由于其实现的简单性,在很多领域得到了广泛的应用。但是,当样本容量较大以及特征属性较多时,KNN算法分类的效率就将大大降低。本文提出了一种改进的KNN算法,并将其与传统的KNN算法进行了比较。此算法不是直接预测响应变量的值,而是缩小响应变量发生的最大可能性的范围,然后插值以给出输出。在预处理步骤中对数据进行分层划分,运行时搜索响应具有发生最大可能性的分区。它采用单个参数k,与传统KNN算法相同,并且超过了目前实验研究所示的各种数据集上的常规技术方法。本文提出了一种新颖,高效和具有离群抗性的基于聚类的KNN回归算法,CLUEKR算法首先找到查询点,而不是直接在整个数据集中搜索最近数据,然后找到在哪个集群。此算法首先在预处理步骤中对数据进行分层聚类,然后执行从层次结构的根节点开始的递归搜索,在层次结构的当前搜索节点中,子节点之间选择一个簇,然后应用递归搜索。最后,找到该簇中的查询点的k个最近邻,并返回其响应变量的加权平均值。本文还提出了使CLUEKR算法能够应用于分类任务的修改。另外本文提出了基于类的加权K最近邻算法,根据其实例,在常规K-最近邻分类器的查询实例邻域中的分类,将权重分配给每个类。该算法考虑了查询实例附近的类分布,确保所分配的权重不会对异常值产生不利的影响。对几种现实世界数据集中所提出的方法进行彻底的实验研究证实,仿真证明研究的方法比目前最先进的方法更好。最后,本文将基于类的加权K-最近邻算法与CLUEKR算法相结合,并提出了一种考虑到数据性质的高效准确的基于KNN的分类器。