论文部分内容阅读
摘 要:数据挖掘是大量数据的分析,发现数据中有效的、新颖的、潜在有用的数据,最终变为可理解的模式。本文介绍了数据挖掘的概念,旨在提供k-means聚类和等级分明的聚类组合,提供的混合聚类方法在集群机制的稳定性是非常有帮助的。
关键词:数据挖掘;聚类;聚类应用
中图分类号:TP301.6
数据挖掘(也成数据或知识发现)的分析从不同的角度来分析数据,并总结将其转化为有用信息的过程,可以用来增加收入,减少成本,或两者兼而有之。数据挖掘的软件是一系列的用于分析数据的工具之一。它允许用户从不同的层面或角度的来分析数据,对其进行分类,并总结确定了关系。
数据挖掘是知识发现数据库(KDD)的核心部分。很多人把KDD作为数据挖掘的代名词,因为它是知识发现过程的一个重要组成部分。包括下列步骤的迭代序列:(1)数据清洗-即去除噪声或不相关的数据;(2)数据集成-在多个数据源进行组合;(3)数据选集-相关的分析任务数据被从数据库中检索;(4)数据转换-数据被转换或合并成适合挖掘的形式通过进行汇总或聚合操作;(5)数据挖掘-在智能方法应用中用于提取数据模式的一个必要的过程;(6)定型鉴定-要识别出代表基于一些趣味性措施的知识且真正有趣的模式;(7)知识介绍-知识表达技术用于提供给用户目前的挖掘知识信息。
1 聚类
聚类是一种将一组数据(或对象)分为一组有意义的子类,称为集群的过程。它可以帮助用戶了解数据集中的自然分组或结构。一个好的聚类方法将生产高质量的集群,其中,类内(即,帧内簇)的相似性高,并且类间相似性是低的。聚类结果的好坏取决于两者所采用的方法及其实现的相似性度量。聚类方法的质量也由它发现部分或全部隐藏模式的能力来衡量的,聚类的分析结果如图1所示:
我们的目标是,在一个组中的对象会是相似的(或相关的)到另一个不同于(或无关)在其他组中的对象。更大的相似性(或同质性)中的基团和更大的群体之间的差异,也出现在“更好”或“更独特”的聚类中。
聚类分析的例子:
让我们以图书馆系统的为例。在图书馆的中找了大量的不同主题的图书。他们始终保持簇的形式,有一些书因为它们之间的相似性所以被放置在一个集群也就是簇中。例如,关于数据库的书都放在一个架子上,而关于操作系统的书籍都放在一个柜子中等等。为了进一步降低复杂性,覆盖相同种类主题的书籍被放置在同一个柜子中。然后柜子和橱柜都贴有相关的名称。现在,当用户想要一本关于特定类型的话题,图书管理员会去相对应的架子查找这本书,而不是搜索整个图书馆。
聚类算法可以应用在许多领域,例如:
营销:寻找相似的客户群,给定含有客户群提的性质和以往的购买记录的大型数据库的行为。
生物学:根据动植物的功能进行分类。
图书馆:图书订购。
保险:识别汽车保险保单持有人的群体而且有较高的平均索赔成本,识别欺诈行为。
城市规划:根据他们的房子的类型、价值和地理位置来识别他们的房屋群。
地震研究:使用聚类来观测地震的震中央,以确定危险区。
万维网:文档分类;使用聚类分析博客的数据,发现类似的访问模式组。
2 K-均值聚类:算法
k-均值算法(劳埃德,1982)属于一个家庭的算法,称为优化聚类算法。在该家庭的算法中,集群的形成,优化了部分良好的集群算法。也就是说,实例被划分为簇,然后簇根据一些衡量最优化。这个名字来源K集群的形成,其中所述簇的中心是该集群内的所有向量的算术平均值。
3 分层聚类
分层聚类算法分为两种类别:凝聚和分裂。
凝聚聚类在底部,最初将每个数据点作为一个单独的群集,然后依次合并集群,直到所有的点都被合并成一个单一的群集。分裂的聚类,首先将所有数据点集中在一个集群,然后逐渐获得所需要的集群。具体来说,主要有两个步骤:第一是选择一个合适的聚类分割,二是确定如何分割成两个新簇。
凝聚VS分裂:这方面涉及的算法结构和操作有:一种凝聚的方法开始于不同的模式(独立)集群,先后合并在一起,直到达到满意的标准然后停止。一种分裂的方法是在所有模式中选择一个单一的集群,然后执行分裂直到满足停止标准。其优势为可以产生对象的排序,可以信息数据显示的排序,并且有较小的簇生成,这可能有助于发现。
4 WEKA
WEKA数据挖掘系统是新西兰怀卡托大学的数据挖掘算法,使用Java语言进行开发.以展现现实世界中的数据挖掘问题的状态。WEKA实现了对数据预处理,算法的加工,分类,回归,聚类和关联规则;同时还包括可视化工具。WEKA是通用公共许可下发布的开放源码软件。通常Weka中的数据文件是ARFF文件格式,它由特殊标记,以指示在数据文件中不同的东西(最重要的:属性名,属性类型,属性值和数据)。其主要特点为包含:
·49个数据预处理工具。
·76个分类/回归算法。
·8个聚类算法。
·33个具有关联规则的算法。
·15个特征选择属性/子集评估+10个搜索算法。
主要的图形用户界面:
·“资源管理器”(探索性数据分析)。
·“实验者”(实验环境)。
·“知识流”(新的过程模型灵感的接口)。
5 方法
我们的研究将始于各种资源的数据集收集并对WEKA工具进行研究。从WEKA的A获取的API将为聚类提供数据集。K均值实施将用其他群集方式和Java语言来实现可扩展性和集成。K均值实施值后,我们将开发可以在同一数据集层的聚类技术。通过结合这两种算法来减少整体处理速度和数量簇的形成。
参考文献:
[1]朱琳,朱参世.计算机工程与应用[J],2014(01).
[2]Jiawei Han,Micheline Kamber,Morgan Kauffman.数据挖掘:概念与技术(第二版)[M].北京:机械工业出版社,2007.
作者简介:石静(1988.10-),女,山东邹平人,研究生,计算机技术专业,研究方向:数据挖掘。
作者单位:长春工业大学南湖校区,吉林长春 130012
关键词:数据挖掘;聚类;聚类应用
中图分类号:TP301.6
数据挖掘(也成数据或知识发现)的分析从不同的角度来分析数据,并总结将其转化为有用信息的过程,可以用来增加收入,减少成本,或两者兼而有之。数据挖掘的软件是一系列的用于分析数据的工具之一。它允许用户从不同的层面或角度的来分析数据,对其进行分类,并总结确定了关系。
数据挖掘是知识发现数据库(KDD)的核心部分。很多人把KDD作为数据挖掘的代名词,因为它是知识发现过程的一个重要组成部分。包括下列步骤的迭代序列:(1)数据清洗-即去除噪声或不相关的数据;(2)数据集成-在多个数据源进行组合;(3)数据选集-相关的分析任务数据被从数据库中检索;(4)数据转换-数据被转换或合并成适合挖掘的形式通过进行汇总或聚合操作;(5)数据挖掘-在智能方法应用中用于提取数据模式的一个必要的过程;(6)定型鉴定-要识别出代表基于一些趣味性措施的知识且真正有趣的模式;(7)知识介绍-知识表达技术用于提供给用户目前的挖掘知识信息。
1 聚类
聚类是一种将一组数据(或对象)分为一组有意义的子类,称为集群的过程。它可以帮助用戶了解数据集中的自然分组或结构。一个好的聚类方法将生产高质量的集群,其中,类内(即,帧内簇)的相似性高,并且类间相似性是低的。聚类结果的好坏取决于两者所采用的方法及其实现的相似性度量。聚类方法的质量也由它发现部分或全部隐藏模式的能力来衡量的,聚类的分析结果如图1所示:
我们的目标是,在一个组中的对象会是相似的(或相关的)到另一个不同于(或无关)在其他组中的对象。更大的相似性(或同质性)中的基团和更大的群体之间的差异,也出现在“更好”或“更独特”的聚类中。
聚类分析的例子:
让我们以图书馆系统的为例。在图书馆的中找了大量的不同主题的图书。他们始终保持簇的形式,有一些书因为它们之间的相似性所以被放置在一个集群也就是簇中。例如,关于数据库的书都放在一个架子上,而关于操作系统的书籍都放在一个柜子中等等。为了进一步降低复杂性,覆盖相同种类主题的书籍被放置在同一个柜子中。然后柜子和橱柜都贴有相关的名称。现在,当用户想要一本关于特定类型的话题,图书管理员会去相对应的架子查找这本书,而不是搜索整个图书馆。
聚类算法可以应用在许多领域,例如:
营销:寻找相似的客户群,给定含有客户群提的性质和以往的购买记录的大型数据库的行为。
生物学:根据动植物的功能进行分类。
图书馆:图书订购。
保险:识别汽车保险保单持有人的群体而且有较高的平均索赔成本,识别欺诈行为。
城市规划:根据他们的房子的类型、价值和地理位置来识别他们的房屋群。
地震研究:使用聚类来观测地震的震中央,以确定危险区。
万维网:文档分类;使用聚类分析博客的数据,发现类似的访问模式组。
2 K-均值聚类:算法
k-均值算法(劳埃德,1982)属于一个家庭的算法,称为优化聚类算法。在该家庭的算法中,集群的形成,优化了部分良好的集群算法。也就是说,实例被划分为簇,然后簇根据一些衡量最优化。这个名字来源K集群的形成,其中所述簇的中心是该集群内的所有向量的算术平均值。
3 分层聚类
分层聚类算法分为两种类别:凝聚和分裂。
凝聚聚类在底部,最初将每个数据点作为一个单独的群集,然后依次合并集群,直到所有的点都被合并成一个单一的群集。分裂的聚类,首先将所有数据点集中在一个集群,然后逐渐获得所需要的集群。具体来说,主要有两个步骤:第一是选择一个合适的聚类分割,二是确定如何分割成两个新簇。
凝聚VS分裂:这方面涉及的算法结构和操作有:一种凝聚的方法开始于不同的模式(独立)集群,先后合并在一起,直到达到满意的标准然后停止。一种分裂的方法是在所有模式中选择一个单一的集群,然后执行分裂直到满足停止标准。其优势为可以产生对象的排序,可以信息数据显示的排序,并且有较小的簇生成,这可能有助于发现。
4 WEKA
WEKA数据挖掘系统是新西兰怀卡托大学的数据挖掘算法,使用Java语言进行开发.以展现现实世界中的数据挖掘问题的状态。WEKA实现了对数据预处理,算法的加工,分类,回归,聚类和关联规则;同时还包括可视化工具。WEKA是通用公共许可下发布的开放源码软件。通常Weka中的数据文件是ARFF文件格式,它由特殊标记,以指示在数据文件中不同的东西(最重要的:属性名,属性类型,属性值和数据)。其主要特点为包含:
·49个数据预处理工具。
·76个分类/回归算法。
·8个聚类算法。
·33个具有关联规则的算法。
·15个特征选择属性/子集评估+10个搜索算法。
主要的图形用户界面:
·“资源管理器”(探索性数据分析)。
·“实验者”(实验环境)。
·“知识流”(新的过程模型灵感的接口)。
5 方法
我们的研究将始于各种资源的数据集收集并对WEKA工具进行研究。从WEKA的A获取的API将为聚类提供数据集。K均值实施将用其他群集方式和Java语言来实现可扩展性和集成。K均值实施值后,我们将开发可以在同一数据集层的聚类技术。通过结合这两种算法来减少整体处理速度和数量簇的形成。
参考文献:
[1]朱琳,朱参世.计算机工程与应用[J],2014(01).
[2]Jiawei Han,Micheline Kamber,Morgan Kauffman.数据挖掘:概念与技术(第二版)[M].北京:机械工业出版社,2007.
作者简介:石静(1988.10-),女,山东邹平人,研究生,计算机技术专业,研究方向:数据挖掘。
作者单位:长春工业大学南湖校区,吉林长春 130012