基于Voronoi的平面数据的聚类分析

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:tseysaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。论文首先总结了数据挖掘中的聚类算法,并着重分析了几种经典的聚类算法:KMeans、DBSCAN,CLIQUE,分析了它们的各自的优缺点及算法的各种改进措施。论文接着简要介绍了Voronoi图。作为计算几何中的一个重要分支,Voronoi具有很多优良的特性,特别是它的最近邻特性,因此它在诸多领域都有应用。而它的这个特性,与基于原型的聚类算法有着理论上的相似性,因此利用Voronoi图进行聚类是可行的。论文简要介绍了各种Voronoi图的构造方法,并给出了增量构造法的一般过程。为了利用Voronoi图进行聚类,必须构造封闭区域的Voronoi图。论文提出一种构造封闭区域的Voronoi图的方法:先在整个空间上构造Voronoi图,并构造出封闭区域(一般是矩形),然后找出Voronoi图中非封闭单元,然后循环一周求出这些非封闭单元与封闭曲线的交点,其它的单元不发生改变,这样就可以得到封闭区域上的Voronoi图。并可得到每个单元的顶点序列,还可以计算每个单元的面积。在着重分析了基于密度与网格的聚类算法的基础上,提出了基于Voronoi图的聚类算法。算法利用Voronoi图构建平面上不规则的网格,利用Voronoi图的最近邻特性将不同网格中的点归于不同的类。利用网格点密度来自动调整最终的聚类数,利用前后质心变化来调整Voronoi母点的位置,最终的Voronoi单元就是聚类结果。算法能自动确定聚类数,还能自动识别低密度点。实验证明,该算法能对平面上的数据点集进行有效的聚类,性能与改进的Kmeans算法Xmeans相当,比基于密度的聚类算法DBSCAN、Optics更有效,当实验数据集规模较大时优势较为明显。论文还运用改进的算法来解决一类应用地理信息进行规划决策的实际问题。论文最后对算法的进一步改进提出了一些思路。
其他文献
近年来Linux系统在服务器领域的占有率一路攀升,尤其是在云计算领域。但是由于源代码开放,Linux面临着日趋严峻的安全挑战。Linux环境下的内核级Rootkit类型木马拥有与操作系统
RFID (Radio Frequency Identification)射频识别技术,是采用无线射频方式进行非接触通讯,自动识别物品并获取数据的一种快速识别技术,已在各个领域得到广泛应用。基于RFID技
PC机是以其低廉的价格、灵活的架构、不错的性能被人们广泛地应用在各行各业中。近十几年来,PC机性能飞速发展。但是PC机重要的存储部件——硬盘的性能发展速度缓慢。而人们
无线射频识别(Radio Frequency Identification,RFID)技术的快速多样化发展对传统RFID应用的适应性、灵活性及可维护性提出了挑战,导致了RFID中间件的出现。RFID中间件为应用提
P2P网络中的节点既是服务的提供者也是消费者。由于P2P网络大多排斥集中的CA,没有权威机构来规定节点的交易规则,使得网络中的节点经常是在未知环境下进行交易的,一些节点可
随着信息技术的发展和计算机的广泛应用,如何保证和提高软件质量成为软件工程最为关心的问题之一,以软件测试为中心的软件质量保障技术在软件生产实践中得到了迅速的发展。但
如今对于标准编码文字的检索已非常成熟,其应用几乎无处不在。如果能用与检索标准编码文字相类似的方法来实现对以计算机文件形式存储的手写文档的查询和检索的话,则能够大大
数据挖掘是目前信息领域和数据库技术的前沿研究课题,被公认为是最具发展前景的关键技术之一。数据挖掘涉及到统计学、人工智能(特别是机器学习)、模糊理论和数据库技术等多
众所周知,为了达到良好的预测效果,一个必须的条件是大量的知识。我们可以使用人工输入、机器学习等方法来获得大量的知识,这些知识大都表示为if-then的形式。随着规则引擎系
信息时代的数据存储技术使存储海量数据成为可能,数据挖掘作为一个新兴的研究领域,正在试图通过探索大数据量、复杂的数据类型以及建模技术来解决信息过载的危机,并使得对海