基于属性加权和相似性度量的混合型聚类算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:wangzhanglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘研究的一个重要分支,通过聚类,我们将大型数据集中的数据对象有效地划分到一系列簇中,使得同一簇中的对象彼此相似。对每一类加以合理解释后,我们往往可以发现感兴趣的群体。K均值算法是最常见的聚类方法,因其在处理大型数据集时的高效性而闻名,但缺点是只能处理数值型数据。之后基于K均值提出的K众数和K原型算法分别能够对分类数据和混合数据聚类,但因为相似性度量和权重计算的合理性问题,使得聚类的精度得不到保证。概念层次树是一种属性的层次结构语义描述,可以用来对分类型属性相似性度量,传统的度量方式是通过编码的方式进行,对编码之间计算概念相关距离能够一定程度的反映出属性值之间的差异程度。本文在层次结构树的基础上,摒弃了传统的编码方式,直接利用树的结构,将编码的运算转换为树中结点的距离运算,这克服了传统方式中因为编码而导致结点信息丢失的缺点,新的度量不仅具有直观上合理性,而且符合度量空间的特性。ReliefF是一种高效的特征选择方法,本文基于A.Ahmad提出的整体考虑的思想,对ReliefF算法的属性差异性度量提出改进,改进的ReliefF方法能够更准确地依据属性重要程度的不同,赋予相对权值。同时,本文将整体考虑的思想与图聚类理论结合,将数据集对应的信息系统映射为加权图,通过计算图中结点的连接度来计算属性之间的相似性,该度量方式既保留了基于整体考虑的合理性,同时降低了计算复杂度。混合型属性数据因其具有两种类型的属性而使聚类变得困难,本文主要从属性重要程度和属性距离贡献两方面来讨论混合型数据集聚类中遇到的问题。首先将数值型属性离散化,从而可在整个数据集上对属性重要程度进行衡量并赋值,同时,统一进行新相似性度量,分别在三种类型数据集上进行实验,与传统聚类方法的比较体现出了新方案的效率和效果。
其他文献
ZigBee是一种低速率、低成本和低功耗的短距离无线通信技术。ZigBee无线网络本身的特性使其在工业控制、智能家居等领域有着非常广阔的应用前景。本文针对混凝土搅拌站粉体料
学位
对未知环境的地形探索问题是机器人领域的经典问题,对于人类难以到达或环境过于复杂的应用场景中,例如灾难现场探测、紧急情况搜救、军事信息搜集等等,机器人地图探索都有着
工作流引擎是工作流管理系统的核心。轻量级工作流引擎具有简洁、灵活等特性并能方便地集成到面向流程的应用而成为当前研究的热点。本文为此研究设计了一种模型简单、结构清
学位
当前,国内外对骨骼三维重建的主要手段是基于断层扫描数据,数据的获取要求很昂贵的机械设备,增加了生产和研究的成本。通过双目视觉的三维重建技术能通过两幅不同角度获取的图像
学位
传统的虚拟仿真实验大多依赖于鼠标键盘的交互方式,并且大部分只允许单人操作。如何开发一款高沉浸感,以体感交互的方式进行操作,允许多人同时操作,实现团队协作的虚拟仿真实验成
近年来,计算机辅助音乐创作已成为一个重要研究方向。语法式进化(简称GE)作为一种新兴的、基于形式语法的进化计算方法,使用形式语法对搜索空间进行限制,有效地减少了搜索过程的工
随着网络技术的高速发展,信息技术的普及,教育的信息化和网络化已成为不争的事实。通过网络教学可使学习者超越时间和地理的约束,方便地依靠网络教学系统进行自主学习,并共享
服务等级协议SLA是业务提供商和客户之间签订的具有法律效力的,在服务质量、优先权和责任义务等方面达成的协议。SLA作为衡量业务服务质量的主要手段,不管对客户还是对业务提
随着全球经济发展和工业信息化进程的加速,人们在政治、经济、军事、环境、民生等方面处理的信息量越来越大,并且要求能够通过对这些数据的有效管理,给人们提供有用的决策信息,数
随着网络技术的不断发展,视频流媒体业务正在以惊人的速度增长。与其它数据不同,视频多媒体数据具有数据量大、持续时间长、传输时延敏感等特点,给数字多媒体技术和网络技术