基于密度和距离自适应确定初始聚类中心的K-Prototypes算法的研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:numlof
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
几十年来,随着科技的进步和互联网的飞速发展,带来的就是数据量的井喷式增长。为了承载这些数据,在工程层面我们经历了从单机到分布式的演变。而在逐步走向信息化的社会中,任何数据都显得弥足珍贵,所以任何能够对大数据进行分析处理的算法都具有一定的科学研究价值。聚类算法是数据处理过程中很常见的一种无监督学习算法,近些年来在算法领域也获得了很大范围的关注。但是,聚类算法分为多种类型,不同聚类算法可以处理的数据类型也不同,不同的聚类算法能够处理的数据模型也是不同的,例如,本文研究的基础算法,K-Prototypes聚类算法,就是处理混合数据类型聚类以及球形数据模型聚类的算法。K-Prototypes算法与K-Means算法和K-Modes算法有着类似的缺陷,因为K-Prototypes算发就是由这两个算法演变而来的,应该说这种K型聚类算法有着通病:首先是聚类簇数k需要人为设定(算法的参数),而大多数情况下,我们并不知道数据集应该被聚为几类;其次该类算法初始聚类中心的选择是随机的,而这将导致诸如低聚类准确性和不稳定的聚类结果之类的问题。为了改善以上问题,本文提出了一种基于样本的邻域密度和样本间的距离自适应确定初始聚类中心的策略,对算法进行改进。分析一般聚类的结果,可以发现,聚类中心都是密度较大的点,且不同簇间的聚类中心距离较远,因此可以通过找到满足这个特征的点集,来确定初始聚类中心,以达到提高聚类精度、稳定性及加快收敛速度的优化效果。对比本文提出的算法与自适应确定聚类簇数的经典聚类算法X-Means,可以证明该算法在自适应确定聚类中心方面的可用性。通过对UCI提供的Machine Learning Repository中的五个数据集上的实验证明,该算法在聚类结果的质量及稳定性上优于传统的K-Prototypes算法和模糊K-Prototypes算法。本着算法研究不能脱离实际应用的原则,本文将通过引入一个完整的“聚类分析”案例,将本文提出的基于样本的邻域密度和样本间的距离自适应确定初始聚类中心的K-Prototypes算法应用在分析不同学生进行评教问答时的特点(如某些学生习惯总是打高分,某些学生比较苛刻)与学生成绩之间的关系上,表明改进算法的可行性。通过聚类算法,我们可以更清晰的认识到样本间的相似与相异,尽可能不浪费数据告诉我们的任何一点信息,这也是众多数据分析算法研究的重要意义。
其他文献
磁悬浮系统是一个复杂的非线性系统,尤其是在外界干扰和模型误差等不确定因素的影响下,对其进行稳定的控制难度更大。因此,如果能找到一种好的控制算法,使磁悬浮系统对各种不确定性和外界干扰有更强的鲁棒性能,是非常有必要的。本文主要以磁悬浮轴承系统为研究对象,通过建模为PCHD(Port-Controlled Hamiltonian with Dissipation,PCHD)系统,结合运用基于演算子理论的
写意在中国传统绘画中是一个重要的概念,强调运用笔墨语言来传达创作者内心中的“意气”,所谓“直写胸臆是也”。写意画以独特的语言与技巧,不仅通过物象的隐喻传达一种思想
纳撒尼尔·霍桑在写作《祖父之椅的整部历史》时,首次发现了中间地带这一独特的叙事策略。本文通过分析十九世纪儿童文学市场,借助批评家对霍桑“中间地带”的见解和分析,并结合文本细读,深入探索了霍桑在其第一部儿童文学作品中对中间地带的构建。论文共分为五个章节。第一章主要介绍了霍桑的生平、儿童文学作品及成就,国内外霍桑儿童文学研究成果,以及论文的理论基础、可行性和意义等。论文的主体部分由第二、三和四章构成。
无线通信、嵌入式技术和微电子系统的发展推动着无线传感网络(Wireless Sensor Networks,WSNs)的不断进步,使得WSNs的应用场景从最初的军事战场逐步扩展到环境监测、现代医疗和智能家居等领域。传感器节点能量有限,无法进行大量的数据操作,通常采用数据聚合(Data Aggregation,DA)技术去除冗余信息,减少数据传输量,缓解网络的能耗压力。然而,在聚合过程中大量的数据被
本文主要研究并设计了一种用于射频前端电路的温度和工艺检测补偿技术。该温度和工艺检测补偿技术,分别包括了温度传感器和工艺检测器来实现温度和工艺偏差的检测,以及与射频
为补充尚未建成实体科技馆县(市)的科普资源,带动基层科普的建设和发展,提升老少边穷地区公民的科学素养,缩小城镇劳动者和农村劳动者科学素养水平的差距,中国科协于2010年正式启动了“中国流动科技馆”项目。流动科技馆是在保留实体科技馆的基本功能上,结合科普大篷车的形式和优点,采用小型化、模块化的展品在各县(市)间巡回展出的公益性科普设施。流动科技馆受到当地群众尤其是青少年的喜爱。但流动科技馆运行年限尚
如今社会信息技术的蓬勃发展,给我们的生活以及工作带来了各种各样的便利。各种自动化系统,大数据分析等信息化办公的解决方案广泛应用于各种企业以及行政机关单位,信息技术的广泛发展,推动着企业和行政机关单位服务不断向前,基于科学建立的自动化协同工作的软件成为企业的核心竞争力。基因产业带动全球生物科技产业的发展,具有非常广泛的前景,我国的基因产业相对于西方发达国家来说起步较晚,特别是基因检测技术远远落后于西
作为高中英语语法中的重点和难点,情态助动词的用法备受历年高考的青睐。然而,英语情态助动词大多一词多义且词义相互重叠,学生要想较好地掌握情态助动词并非易事,使用过程中
为了维护电力系统的正常运行,需要用到电磁暂态仿真系统对电网中的节点进行实时监测。电磁暂态仿真系统的实现方式主要分为软件语言实现的软件仿真系统和基于硬件描述语言在F
随着互联网技术的发展,以及云计算的兴起,越来越多的用户选择将信息存储到第三方云存储平台上。这其中包含大量的图像、文本等信息。众所周知这些图像和文本中通常将用户的隐私包含在其中,将隐私性的图像和文本存储在完全不可信的第三方云平台上,这种操作无疑增加了用户隐私泄露的风险。为了保护用户的个人图像和文本信息不被泄露,并且数据在传输过程中不被篡改,通常需要在将文本和图像上传到云服务器前,先对其进行加密处理。