优化的聚类算法与混合的K—Means分层算法

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:bingdaogege
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘是大量数据的分析,发现数据中有效的、新颖的、潜在有用的数据,最终变为可理解的模式。本文介绍了数据挖掘的概念,旨在提供k-means聚类和等级分明的聚类组合,提供的混合聚类方法在集群机制的稳定性是非常有帮助的。
  关键词:数据挖掘;聚类;聚类应用
  中图分类号:TP301.6
  数据挖掘(也成数据或知识发现)的分析从不同的角度来分析数据,并总结将其转化为有用信息的过程,可以用来增加收入,减少成本,或两者兼而有之。数据挖掘的软件是一系列的用于分析数据的工具之一。它允许用户从不同的层面或角度的来分析数据,对其进行分类,并总结确定了关系。
  数据挖掘是知识发现数据库(KDD)的核心部分。很多人把KDD作为数据挖掘的代名词,因为它是知识发现过程的一个重要组成部分。包括下列步骤的迭代序列:(1)数据清洗-即去除噪声或不相关的数据;(2)数据集成-在多个数据源进行组合;(3)数据选集-相关的分析任务数据被从数据库中检索;(4)数据转换-数据被转换或合并成适合挖掘的形式通过进行汇总或聚合操作;(5)数据挖掘-在智能方法应用中用于提取数据模式的一个必要的过程;(6)定型鉴定-要识别出代表基于一些趣味性措施的知识且真正有趣的模式;(7)知识介绍-知识表达技术用于提供给用户目前的挖掘知识信息。
  1 聚类
  聚类是一种将一组数据(或对象)分为一组有意义的子类,称为集群的过程。它可以帮助用戶了解数据集中的自然分组或结构。一个好的聚类方法将生产高质量的集群,其中,类内(即,帧内簇)的相似性高,并且类间相似性是低的。聚类结果的好坏取决于两者所采用的方法及其实现的相似性度量。聚类方法的质量也由它发现部分或全部隐藏模式的能力来衡量的,聚类的分析结果如图1所示:
  我们的目标是,在一个组中的对象会是相似的(或相关的)到另一个不同于(或无关)在其他组中的对象。更大的相似性(或同质性)中的基团和更大的群体之间的差异,也出现在“更好”或“更独特”的聚类中。
  聚类分析的例子:
  让我们以图书馆系统的为例。在图书馆的中找了大量的不同主题的图书。他们始终保持簇的形式,有一些书因为它们之间的相似性所以被放置在一个集群也就是簇中。例如,关于数据库的书都放在一个架子上,而关于操作系统的书籍都放在一个柜子中等等。为了进一步降低复杂性,覆盖相同种类主题的书籍被放置在同一个柜子中。然后柜子和橱柜都贴有相关的名称。现在,当用户想要一本关于特定类型的话题,图书管理员会去相对应的架子查找这本书,而不是搜索整个图书馆。
  聚类算法可以应用在许多领域,例如:
  营销:寻找相似的客户群,给定含有客户群提的性质和以往的购买记录的大型数据库的行为。
  生物学:根据动植物的功能进行分类。
  图书馆:图书订购。
  保险:识别汽车保险保单持有人的群体而且有较高的平均索赔成本,识别欺诈行为。
  城市规划:根据他们的房子的类型、价值和地理位置来识别他们的房屋群。
  地震研究:使用聚类来观测地震的震中央,以确定危险区。
  万维网:文档分类;使用聚类分析博客的数据,发现类似的访问模式组。
  2 K-均值聚类:算法
  k-均值算法(劳埃德,1982)属于一个家庭的算法,称为优化聚类算法。在该家庭的算法中,集群的形成,优化了部分良好的集群算法。也就是说,实例被划分为簇,然后簇根据一些衡量最优化。这个名字来源K集群的形成,其中所述簇的中心是该集群内的所有向量的算术平均值。
  3 分层聚类
  分层聚类算法分为两种类别:凝聚和分裂。
  凝聚聚类在底部,最初将每个数据点作为一个单独的群集,然后依次合并集群,直到所有的点都被合并成一个单一的群集。分裂的聚类,首先将所有数据点集中在一个集群,然后逐渐获得所需要的集群。具体来说,主要有两个步骤:第一是选择一个合适的聚类分割,二是确定如何分割成两个新簇。
  凝聚VS分裂:这方面涉及的算法结构和操作有:一种凝聚的方法开始于不同的模式(独立)集群,先后合并在一起,直到达到满意的标准然后停止。一种分裂的方法是在所有模式中选择一个单一的集群,然后执行分裂直到满足停止标准。其优势为可以产生对象的排序,可以信息数据显示的排序,并且有较小的簇生成,这可能有助于发现。
  4 WEKA
  WEKA数据挖掘系统是新西兰怀卡托大学的数据挖掘算法,使用Java语言进行开发.以展现现实世界中的数据挖掘问题的状态。WEKA实现了对数据预处理,算法的加工,分类,回归,聚类和关联规则;同时还包括可视化工具。WEKA是通用公共许可下发布的开放源码软件。通常Weka中的数据文件是ARFF文件格式,它由特殊标记,以指示在数据文件中不同的东西(最重要的:属性名,属性类型,属性值和数据)。其主要特点为包含:
  ·49个数据预处理工具。
  ·76个分类/回归算法。
  ·8个聚类算法。
  ·33个具有关联规则的算法。
  ·15个特征选择属性/子集评估+10个搜索算法。
  主要的图形用户界面:
  ·“资源管理器”(探索性数据分析)。
  ·“实验者”(实验环境)。
  ·“知识流”(新的过程模型灵感的接口)。
  5 方法
  我们的研究将始于各种资源的数据集收集并对WEKA工具进行研究。从WEKA的A获取的API将为聚类提供数据集。K均值实施将用其他群集方式和Java语言来实现可扩展性和集成。K均值实施值后,我们将开发可以在同一数据集层的聚类技术。通过结合这两种算法来减少整体处理速度和数量簇的形成。
  参考文献:
  [1]朱琳,朱参世.计算机工程与应用[J],2014(01).
  [2]Jiawei Han,Micheline Kamber,Morgan Kauffman.数据挖掘:概念与技术(第二版)[M].北京:机械工业出版社,2007.
  作者简介:石静(1988.10-),女,山东邹平人,研究生,计算机技术专业,研究方向:数据挖掘。
  作者单位:长春工业大学南湖校区,吉林长春 130012
其他文献
人机交互是利用交互技术,借助一些交互设备,比如键盘、鼠标等,实现人机交流。用户接口又是人机交互的主要部分,用户接口的设计涉及很多方面,只有充分地考虑到,才能实现人机交
基于WindowsPhone8的盲文阅读系统是为有视力障碍人士提供信息接收的网络系统。随着视力障碍人士数量不断增加,社会要求并且赋予科技为其提高生活质量最终达到生活正常化。而
21世纪是计算机科技飞速发展的时代,随着科技的快速发展,人的意志越来越多地体现在计算机设计中,用户的主观想法和感受对计算机设计的结果也有了重大影响。本文主要通过将用
概述了中石化巴陵分公司己内酰胺生产工艺中咏;中旋转器故障的现象与原因,并对脉冲旋转器的改造方案进行了分析,经改造并现场运行,脉冲旋转器运行平穗可靠,为脉冲旋转器的国产化和
在无线传感器网络、建筑传统的蚁群算法的路由容易能量孔的影响,网络的生命周期和整体性能。本文提出了一种新的蚁群划分聚类算法。主要的思想是,选择下一跳是抽象为装配规划问
摘 要:我国对事业单位施行工资制度改革以来,高校逐步对新制度进行实行及完善。本文针对专科院校的具体实行情况,解决现在校园工资管理系统中的缺陷,通过主要模块间的分工合作,可以自动生成绩效工资,以达到优化配置,提升工资管理水平的目的。  关键词:专科院校;绩效工资;管理系统  中图分类号:G647.2  2010年,在福建省公务员局福建省人力资源开发办公室福建省财政厅的统一部署下,事业单位进行了新的绩
随着现代化网络的不断发展,计算机在各高校的应用越来越广泛,当然在应用过程中难免会遇到一些管理上的问题,基于大学生人流量大、且教学所需软件应用繁多,这些情况都对于计算