基于商空间粒度的覆盖聚类算法

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lwt159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度的不断扩大,导致积累了大量的数据,而这些激增的数据后面隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能,但是无法发现数据中存在的各种关系和规则,更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径,它是数据挖掘的重要组成部分,用于发现在数据库中未知的对象类,为数据挖掘提供有力的支持,它是近年来广为研究的问题之一。聚类分析技术就是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘方法。但是传统的聚类算法对高维大规模数据的处理效率不高,我们研究的工作是希望对大规模,高维的数据库找到一种高效的聚类方法,张铃教授提出的交叉覆盖算法可以有效地处理大规模数据的聚类问题,因此我们提出基于覆盖算法的聚类。同时我们注意到可以用粒度描述聚类的粗细,因此本文在聚类中引入粒度的概念.本文首先从基本概念出发,阐明了数据挖掘技术及其中的聚类分析技术的主要概念和主要内容,之后对聚类分析算法的相关部分(如聚类分析中的数据表示、距离度量和常用算法)进行了深入的分析和讨论。接着介绍了覆盖算法的基本思想,给出了商空间粒度的基本原理,提出了基于商空间粒度的覆盖聚类算法,并通过实验验证了该算法的有效性和可行性,适合处理高维大规模的数据样本。进而,针对文本聚类中由于缺少类信息从而很难直接应用有监督的特征选择方法这样的局限,提出了一种基于类信息的特征选择算法,此算法在密度聚类算法的聚类结果上使用信息增益特征选择法重新选择最有分类能力的特征,实验证明了算法的可行性。论文所做的工作如下:(1)提出了一种可以有效处理大规模高维数据的覆盖聚类算法,此方法在研究传统的聚类算法基础上,扩展了在数据分类上得到良好应用的交叉覆盖算法,提出了改进的覆盖聚类算法,使其能够处理数据的自动聚类问题。(2)引入了粒度的概念,选择不同粒度计算时,可以直观地从不同角度理解样本类内和类间的物理意义,对问题有实际的指导意义。(3)文本聚类属于无监督的学习方法,由于缺乏类信息还很难直接应用有监督的特征选择方法,本文提出了一种基于类信息的特征选择算法,很好的利用了无监督学习方法中的信息增益特征选择法。本文在粒度聚类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:(1)算法的有效性(2)算法的伸缩性(3)算法的系统交互性
其他文献
随着计算机技术和计算机网络的快速发展,计算机安全方面的问题日益突出。跨安全域环境下如何防止未经授权的访问,实现资源共享、多方协作的安全、有效建立,访问控制技术是其
医院信息系统(HospitalInformation System,HIS)的兴起,旨在运用多种先进的技术,开发一个性能良好的医院信息管理平台,进而对繁多的医患信息进行有效的组织和管理,以便于医院工作
随着移动互联网的推广和移动终端设备的普及,随时随地地观看视频已经成为用户的基本要求。然而现有移动视频转码方案因为移动网络的异构性和移动终端设备的多样性,正面临着巨大
随着计算机技术和宽带数据通信网日新月异地发展,以多媒体通信业务为主体的信息网络技术已逐渐成为人们关注的热点,而实时音视频会议系统的成功开发和应用更是显示了其良好的发
随着硬件处理器架构的不断发展,应用的结构也变得越来越复杂,这给并行编程带来了巨大的挑战,为此任务并行编程模型便应运而生并得到越来越广泛的应用。现有任务并行编程模型在任
无线传感器网络是由大量能量受限的传感器节点组织成的无中心结构的无线自组织多跳网络。无线传感器节点体积微小,携带的电池能量有限,研究节约能量的机制是无线传感器网络中
基因表达式程序设计(GEP)是一种新型的遗传算法,它继承了遗传程序设计(GP)和遗传算法(GA)的优点并且具有更高的效率和更强的搜索能力,它是借鉴生物选择和进化机制发展起来的一
汽车行驶的舒适性和操纵的稳定性两项指标与汽车的悬挂系统有着密切的关系。传统被动悬挂的结构参数不能随外界条件的变化而变化,从而限制了汽车性能的进一步提高,而半主动悬挂的结构参数如阻尼、弹簧刚度等具有可调性,能较好地满足车辆行驶的要求。本课题主要研究的是汽车半主动悬挂的控制系统,主要内容包括算法理论研究和半主动悬挂控制器设计两部分。算法部分是以四自由度非线性汽车模型作为研究对象,采用自适应模糊控制方法
Robocup世界杯是世界上规模最大、参与人数最多的机器人足球比赛,也是智能机器人领域最重要的国际盛会。其比赛项目分为仿真组和实物机器人组。本文工作基于RoboCup提供的足球
随着生物医学工程的迅速发展,越来越多的生物医学信息被数字化,心电图、动态心电图就是其中的典型实例,其研究内容主要集中于心电波形的波峰检测和识别。对动态心电图则还要对其