面向分类数据的聚类算法研究

被引量 : 24次 | 上传用户:sunliu168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为一种非监督学习方法,是机器学习领域中一个重要的研究方向.同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法.目前,针对数值数据的聚类分析研究已经取得了丰硕的成果,然而,在现实世界中,存在大量分类数据.由于分类数据缺乏固有的几何特性不能直接进行数值运算,相应的聚类模型及其算法的设计与数值数据有较大不同,且相对来说也比较复杂.近年来,针对分类数据的聚类分析研究引起了广泛的关注.本文对分类数据聚类分析中的若干问题进行了研究,包括分类数据的初始类中心选择算法、相似性度量以及针对高维、海量、时序分类数据的聚类算法.本文的主要研究成果有:(1)提出了一个针对分类数据的初始类中心选择算法,该算法扩展了传统的最大最小距离算法.通过定义对象的密度给出了第一个类中心的确定方法,克服了最大最小距离算法任意选择一个对象作为第一个类中心的不足;在计算剩余类中心时,不仅考虑了已有类中心和对象之间的距离,而且考虑了对象的密度,克服了孤立点作为初始类中心的可能性.实验结果表明,提出的初始类中心选择算法较随机选择能显著提高k-modes和Fuzzy k-modes算法的聚类精度.(2)基于生物遗传分类学原理,通过粗糙隶属函数定义了对象在给定属性集下的相似性,进一步改进了文[64]提出的相异性度量.改进的相异性度量统一了对象之间以及对象与"mode"之间的相异性度量,并将其应用于k-modes聚类算法中,分析了算法的收敛性和时间复杂度.实验结果表明基于改进相异性度量的k-modes算法能有效地在处理大规模数据,特别是在具有遗传分类特征的数据集上较目前的聚类方法有明显的优势.(3)针对海量分类数据,基于数据抽样技术和粗糙集理论中的粗糙隶属函数,给出了一种未标签对象和抽样数据聚类结果之间的相似性度量,并设计了一种数据标签算法,并分析了算法的时间复杂度.实验结果表明提出的算法较传统的k-modes算法和一些数据标签算法在聚类精度上有一定的提高.(4)针对高维分类数据,基于信息熵给出了一种属性在聚类过程中重要性的度量方法,并提出了一个软子空间聚类算法,同时分析了算法的时间复杂度.实验结果表明提出的算法较k-modes算法和一种带权的混合数据聚类算法不仅在聚类精度上有显著提高,而且可以通过属性权重阈值的设置给出不同类对应的不同属性子集,有助于用户理解和解释聚类结果.(5)提出了时序分类数据的聚类算法,主要包括:①基于粗糙集理论中的粗糙隶属函数和滑动窗口技术,给出了两个概念之间的相似性度量,并提出了概念漂移检测算法;②基于粗糙隶属函数给出了当前滑动窗口中的对象和上一个滑动窗口聚类结果之间的相似性度量,并提出了数据标签算法;③基于两个概念之间的相似性度量,提出了不同时刻聚类结果的可视化算法.同时,分析了提出算法的时间复杂度.实验结果表明,提‘出的算法不仅能够有效地提高聚类精度、检测到漂移的概念,而且能观测到不同时刻聚类结果的演化趋势.(6)基于B/S架构,设计并实现了一个智能数据挖掘实验系统.系统包括数据输入、数据处理、统计分析、数据挖掘、图形可视化、系统维护等功能,并在山西某电信运营商的数据分析中得到应用.系统采用组件式开发和Ajax技术,保证了系统具有良好的可扩充性和交互性.本文的研究成果进一步丰富了分类数据聚类分析的研究,为生物信息数据、Web数据、客户交易数据等相关领域的数据挖掘与知识发现提供了新的技术支撑.
其他文献
企业政府关系是指企业与政府之间的沟通互动的关系。本文从宏观环境分析政企关系现状,通过建立沟通模型详细论述了企业与政府沟通的方法,希望能够为企业更好地与政府沟通提供
目的探讨颅脑手术患者发生颅内感染的相关因素。方法行颅脑手术治疗且术后出现颅内感染患者26例作为观察组,选取同期行颅脑手术治疗未出现颅内感染患者26例作为对照组,对产生
本文从作家、作品、世界三个角度列举了在《大学语文》教学中融入"图文"意识,展开空间思维的三个实例:其一,以图出史,追踪作家人生行迹;借助唐宋文学编年地图从宏观上追踪苏
盐城汽车制造业已初具规模,随着悦达汽车、中威客车等主要汽车产品扩能,盐城汽车运输及其零部件供给需求会日益扩大。顺应市场流通规模不断扩大,流通集约化程度日益提高的趋
为了实现拼接镜平移误差的大量程、快速检测,提出了一种利用白光(400-700nm)远场光斑相干性来检测拼接镜piston误差的方法。该方法以两半圆孔间的非相干衍射图案为模板,利用
随着互联网飞速发展,网络购物给网络零售店带来无限的商机,同时也带来了激烈的竞争与巨大的挑战,如何在众多网店中获得持续竞争优势和盈利是网络零售商关心的重要现实问题。
<正>语文是民族语言文化,又是人类社会生活的反映,无处不在。1908年吴曾祺编选的《中学堂国文教科书》出版,标志着我国语文教育与国际社会文化教育思潮相连接。前70年以主体
目前,商品物流活动已经渗透到人们的日常生活当中,物流业已经成为国民经济的支柱产业,无论哪一个行业都离不开物流的服务。将物联网技术引进物流仓储管理体系中,能为物流仓储
在股权集中的资本市场上,终极控股股东通过金字塔式的控制结构、交叉持股、多重投票权等方式使得他们对上市公司的所有权(现金流权)与其控制权(投票权)分离,达到以较小的现金
<正>本文以"市场配置资源"教学为例,从优化教材结构、内化教材内容、深化教材价值的角度,谈谈如何通过优化、内化和深化高中政治教材,实现思想政治课的教学目标。一、适度调