改进的K-means法及其应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:crosswind123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们对客观事物的研究总是从无认识到有认识,步步深入,渐渐明朗化的。对事物进行分类则是人类认识世界的基本手段之一。在数据分类不明确时,对其进行探索性的分类是极为必要的。聚类分析作为一种无监督的分类方法,在分类方法学中起到了举足轻重的作用。 聚类分析包括很多种,其中K-means法作为快速聚类法(又称动态聚类法)中最常用的一种,由于在计算速度上具有无可比拟的优势,常被作为大样本聚类分析的首选方案。其基本原理为:人为地或按照某种标准选择初始凝聚点,依据样品点到各初始凝聚点的欧氏距离,将样品划分到与其距离最近的类别中,形成初始分类。再对初始分类进行修正,直到分类比较合理,不必再修正为止。实践表明,由于该方法在聚类过程中采取距离就近原则,故更倾向于产生大小相等的球状类。而在实际研究中常存在几个类在“空间”所占容积大小不等的情况。例如亚健康问题,健康的人大都相似,处于亚健康状态的人却因为症状各不相同而存在较大的变异度。在这种情况下,K-means法常常无法得到令人满意的结果。本研究通过模拟和实例分析来探讨对于各类在“空间”所占容积(对应于方差)大小不等的类,如何聚类可以达到较好的效果。 材料与方法: 本研究旨在提出一种改进的K-means法,在对方差不等的类进行聚类时,可以取得较好的效果。 思想来源: 样品来自两个方差不等的类的可能性不但与该样品与类中心的距离有关,还与类内相似度有关。故在每次聚类过程中,对样品与类之间距离的量化,应考虑类内方差的大小。基本思想:不同的类相似度可能不同。故在计算样品与类的距离时,依据类内相似度的大小为其赋予不同的权重。当类内相似度比较大时,为其赋予较大的权重。当类内相似度比较小时,为其赋予较小的权重。类内相似度可以通过类内方差的大小来度量。方差大,说明类内相似度比较小;方差小,则说明类内相似度比较大。故将权重定义为方差的倒数。 算法描述: 1、初始凝聚点的选择在选择初始凝聚点的过程中,如果仅仅基于距离因素,往往会找到许多孤立点作为初始凝聚点。实际上,初始凝聚点除了尽量分散,能使各类被恰当地区分之外,还应该具有一定的代表性,即具有较高的密度。因此,在初始凝聚点的选择中,除了考虑其散布程度外,还应考虑密度因素。本文所提出的聚类方法,引入了每类的方差,若仍以孤立点为初始凝聚点,聚类的效率会受到很大影响。因此,本文所提出的方法,选择密度法作为初始凝聚点的选择方法。 2、距离的定义由于考虑了各类方差的影响,故定义样品到各类的“相对距离”而非“绝对距离”作为聚类准则。所谓相对距离即样品点到类中心的欧氏距离平方与类内方差之比。考虑到极端点对方差的影响,故此处对方差进行修正。修正方法为选择与类中心的欧氏距离平方最近的80﹪的样品点,计算方差。 3、聚类效果的评价概括地说,对聚类效果的评价主要有三种方法。一种是基于外部的准则,该准则基于数据集上的一个预定义的结构来评价聚类算法的结果。另外一种是基于内部的准则,即利用数据集本身的特征来评价聚类结果。第三种是相对准则,即在同一个数据集上,用同一种聚类算法但参数取值不同的多次聚类结果的比较来进行算法的评价。 基于以上各准则的评价指标很多,且各有优缺点。本研究采用的模拟数据和实际数据为已知分类的数据,故可采用外部准则对其进行评价。聚类准确度定义为分类结果与预定义类别一致的个体数与参与聚类的全部个体数的比。该指标容易理解,是对聚类结果进行评价的一个常用外部评价指标。但是聚类结果中所给出的类标签,与金标准并无明确的对应关系,故该指标如何计算十分模糊。本研究利用SAS软件编写程序,寻找聚类结果与金标准之间的对应关系,并计算聚类准确率。从而使聚类结果更加直观。模拟实验:利用SAS产生两类服从双变量正态分布的数据。要求两类数据具有不同的方差比,对于所选取的每个固定的方差比,设置不同的类间距。每类样本量为300,每种情况抽样次数为100。 实例分析:应用改进的K-means法对真实数据进行分析,并对聚类结果进行评价。 算法实现:采用SAS软件编写改进的K-means法的实现程序以及产生模拟数据、产生初始凝聚点以及准确度度量的程序。 结果与讨论: 模拟试验的结果显示:当两类方差比为9,6,4,3时,改进的K-means法的聚类效果优于传统的K-means方法。当两类方差比为2时,改进的K-means法未体现出优越性。比较两种方法的聚类准则,可以看出:改进的K-means法与传统K-means法的不同之处在于,对处于中间地带的样品点的处理方式不同。改进的K-means法由于考虑了方差的因素,认为处于中间地带的样品点虽然与两类“绝对距离”相当,但“相对距离”不等。绝对距离相当的情况下,样品点与方差较大的那一类的相对距离较小,故将其划归为方差较大的类。而传统的K-means法不假思索地根据绝对距离最近原则,将中间地带的样品点进行划分。基于这个性质可以推出:当类间距足够大,以至于无样品点位于中间地带时,两种方法的效果应该一致。本研究模拟试验的结果也证实了这一点。 实例分析通过对两种方法的比较,同样说明改进的K-means法的聚类效果优于传统的K-means方法。
其他文献
随着新课程理念的深入推进,高中教学改革进一步调整.地理作为高中课程中的一门重要科目,在内容上和运用形式上都具有丰富的内涵特点.在新课程改革的大背景下,高中地理“活动
【摘要】在《焊工工艺与技能训练》实践教学中采用项目教学法,解决了学生的心理拒绝问题,真正做到“教、学、做”合一,可以充分调动学生的学习兴趣,使学生的职业能力得到充分的培养和发展。  【关键词】项目教学法 实践教学 职业能力  【中图分类号】TG51-4  《焊工工艺与技能训练》是一门一体化课程,它以职业标准为课程的内容,以教学模块为课程结构,按照教学要求和技能特点设计了焊工基本功、焊条电弧焊、CO
摘要:高职教育的培养目标是培养技术技能人才,提高学生实践动手能力成为了高职教育的当务之急。本文从数控设备应用与维护专业建设的角度出发,重点研究了实训教学条件体系建设,体现几年来数控设备应用与维护专业建设的探索与成果。  关键词: 数控设备应用与维护专业 实训条件 建设  【中图分类号】TG659-4;G712  0引言  为了适应基于工作过程的教学改革的需要,实现理實一体化教学,使学生的学习真正做
摘要:《普通高中数学课程标准(实验)》中明确指出:要“让学生经历数学产生的过程”。这就要求教师充分发挥学生主体地位,为学生创造符合他们自身特点和认知水平的情境。在本文研究过程中,笔者从教学实践出发,以数学运用与生活情境为基本案例进行分析探索,对数学情境教学具体策略进行探讨,以不断提升课堂高效性。  关键词:数学情境教学;原则;策略  【中图分类号】G633.6  一切新知识学习都开始于相关的情境研
【摘要】在新课程改革的背景下,对小学生的惩罚机制是一个敏感的话题。以学生为中心是新课程改革的核心,但不代表着任何教育举措都要顺应学生的心意。因此,在新课程改革背景下,合理的惩罚小学生还是有必要的,可以让小学生尽早的认识到自己错误,加强小学生的自律能力,为将来成为一个负责任的优秀人才奠定坚实的人格基础。  【关键词】新课程;惩罚机制;小学教育  【中图分类号】G620  小学班级管理是一件非常琐碎的