基于聚类生成树的分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sun763280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前在数据挖掘和机器学习领域存在许多分类算法和聚类算法。但使用聚类模型应用于分类的算法仍然很少有人研究。这一思想起源于上世纪80年代,由于当时计算机计算能力低下等原因,该主张一直未能得到深入研究。将聚类模型应用于分类有着明显的实际意义,聚类算法能够发现隐藏在数据集中的潜在信息,如样本间的相似度,样本的分布特征等等,抽取这些信息用于指导样本分类,方法直观,符合人类思维逻辑。  本文针对将聚类模型应用于分类算法这一思想,提出了两种实用高效的分类算法:二叉聚类生成树分类算法和多叉聚类生成树分类算法。这两种算法的本质是:迭代使用k-means系列算法将数据逐层划分,进而生成一棵富含多种信息的聚类树。将此聚类树作为模型,采用最近邻分类算法思想对新样本进行类别划分。实验验证算法在一些机器学习实验数据集上有较高的精度和性能。  本文提出的二叉聚类生成树分类算法能够发现数据集合中的各个独立的聚类,能够消除离群点干扰并提高分类精度。多叉聚类生成树分类算法具有抵御噪声变量和消除噪声点影响等能力,并能够实现在子空间下的数据分类。  最后本文还实现了一个具有良好性能的实验系统,对两种算法各种性能进行评测。系统可以完成数据读取、数据转换、模型构建、结果的可视化显示等多种功能。
其他文献
随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,具有感知能力、计算能力和通信能力的微型传感器开始在世界范围内出现。由这些微型传感器构成的无线传感器
随着互联网技术、现代通信技术和多媒体技术的高速发展,军队指挥系统的数字化、智能化、网络化、可视化已成为必然的发展趋势。研究开发远程网络可视指挥系统,对于加强军队指挥
生产调度作为一个关键模块,是整个先进生产制造系统实现管理技术、运筹技术、优化技术、自动化与计算机技术发展的核心。有效的调度方法和优化技术的研究与应用,是实现先进制
随着互联网技术的快速发展和网络应用的广泛普及,用户对网络信息的覆盖率和准确率都提出了更高的要求。传统搜索引擎主要针对表层网络数据进行处理,却忽略了大部分存储在站点数
随着社会的信息化,信息科学技术的发展突飞猛进,信息和信息技术的发展改变了人们的生活方式,如今如果离开计算机和网络或者其他的电子设备,我们将无法正常生活和工作,信息在
聚合近邻查询(ANN)在空间数据库以及网络环境中是一个相对比较新的操作。与传统的只有一个查询结点的kNN查询相比,ANN具有多个查询结点,由于查询点的数目以及它们在数据库空间
本文在对当前IP网络保证QoS(Quality of Service)技术研究的基础上,提出通过使用P2P技术为端到端应用构造端到端覆盖网协助数据的传输,以提高应用的服务质量的新方法。本文首
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成了一个巨大的全球信息仓库。一方面,Web信息数量庞大,门类齐全,几乎任何信息都可以在Web上找到;另一方面,相对于海量的We
随着计算机技术的发展,其应用在各个社会领域和工程领域不断扩展。城市交通是关系一个国家兴旺发达的重要因素,更与人们的日常生活息息相关。随着城市的发展,城市道路交通状况越
如何有效共享网络计算资源、提高全球IT资源的利用率,给用户提供低价、优质、个性化的计算服务,是一个很有价值的研究课题。本文从研究计算资源共享方式入手,结合当前混合云和互