论文部分内容阅读
聚类是知识工程和模式识别中一个重要的研究领域,在对大量数据进行分析和处理时有其独特的地位。聚类领域方面的研究经过上世纪80到90年代的突飞猛进的发展之后,产生了种类和用途繁多的聚类算法,然而,由于聚类本身属于无指导性学习,其处理问题的方式,以及获得解的可靠性大多是经验性的,而且通常算法过度依赖于具体的应用背景。论文针对聚类算法研究现状,围绕聚类算法及其相关问题,总结和评价现有聚类算法,以及影响聚类分析的各个环节,探讨改进制约聚类性能的关键因素,并论文对普适性较好的聚类算法进行改进。
由于现在存在聚类算法众多,论文首先对各种聚类算法分门别类进行分析讨论,每类算法以其中较为典型的算法为例,在分析总结评价算法优缺点的同时,还剖析聚类算法的具有各种特性的原因;虽然,聚类在许多没有先验知识的应用环境下是不可或缺的,但在没有先验知识的环境下解决问题,从直觉上比有先验知识下解决问题更困难。对此,论文从理论上分析了聚类问题的规模和难度。并且分析得出,基于划分和基于密度的算法具有良好的特性,对这两类典型算法的研究和改进具有重要意义。
多维检索结构是制约众多聚类算法效率的关键环节,论文分析讨论了两类现有的多维索引结构,在此基础上提出了一种简单有效的多维索引结构,并将其用于一个视频关键帧的匹配问题上,同时讨论了它在提高聚类效率上可行的应用。
K平均聚类算法是一类重要的聚类算法,它是目前应用最广的基于划分的聚类算法,论文在研究和总结最近聚类算法的研究进展上,提出了一种改进的K平均聚类算法,并将它应用到文本聚类上,论文还分析对比了该方法的有效性。另外,MeanShift算法是一种基于密度的聚类算法,最近的研究表明它可以成功的应用到诸如图像分割的问题上,论文将K平均聚类算法和MeanShift聚类算法相结合,提出一种新的可变带宽策略对已有MeanShift算法进行有效改进,并将它应用到图像分割上;虽然,K平均聚类算法得到广泛应用,但其迭代过程的收敛性很少有研究者提及,论文将其归结为MeanShift迭代过程的一个特例从而分析了它的收敛性。