论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。数据挖掘的方法有很多种,聚类分析就是其中常见的方法之一。
聚类分析是数据挖掘中的一个很活跃的研究领域,是指把具有某种相似特征的物体或者事物归为一类的方法与技巧。聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将样本划分成若干类(群),使在同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。
聚类分析算法所要完成的功能是数据挖掘过程中的聚类功能。应用决定算法的选择。基于密度和网格相结合的算法,使算法对于处理高维数据具有了更高的效率。密度和网格的结合算法放弃了距离的概念,采用将大量数据分为网格,以密度形式来描述。输入参数τ的递减变化,使算法可以自动从源数据空间中发现一些有价值的子空间,当所有的数据记录投影到这些子空间之后,能够形成具有较高点集密度的区域,从而不会导致聚类质量的下降。
实验证明,基于密度和网格相结合的算法在很多领域都取得了很好的结果,尤其是电信业,聚类分析被广泛地应用,对于提出的数据,决策人员往往能从这些挖掘出来的关系得到意想不到的启示,从而帮助他在激烈的市场竞争中取得成功。