论文部分内容阅读
由于真实数据环境复杂,越来越多的数据分析采用集成的方法来完成,以解决单一方法无法完成的任务。因此,将多种理论相互融合,构造合适的数据挖掘模型来解决真实数据分析问题成为学术界的研究热点。在数据挖掘领域,模糊聚类算法得到广泛的研究与应用。目前的模糊聚类算法在数据挖掘应用中存在对噪声数据敏感,仅适合簇大小相似的球形簇划分等不足。近年来,随着阴影集、粗糙集、模糊集理论的发展,有学者将粗糙集、阴影集理论应用到模糊聚类中,用于有效发现噪声数据。本文结合阴影集和粗糙集理论,对传统模糊聚类算法进行较为系统的改进和创新,主要探讨了模糊聚类算法目标函数的改进,设计了适合多种类型的数据、任意分布数据集的模糊聚类改进算法,并提出了一种新颖的模糊聚类有效性指标。实验结果表明,本文提出的一系列有关模糊聚类分析的新方法取得了良好的效果,而且一些有益算法在民航机场噪声时间序列预测等相关领域得到了应用。本文的研究工作和创新点主要有以下几个方面:(1)提出了一种模糊聚类算法的有效性评价指标。在已有指标的基础上提出了一种改进的聚类有效性指标,该指标以紧密性和分离性之比定义,不仅体现了数据的隶属度和几何结构的相关信息,同时也反映了数据的分布情况。实验表明,该指标性能稳定,可以有效处理簇间有交叠的数据,具有较高的可靠性。(2)提出了一种基于阴影集的特征加权模糊聚类算法。利用阴影集的优化理论,基于模糊隶属度划分簇的核心区、不确定区和排外区,有利于发现噪声数据,这种算法将阴影集和模糊聚类相结合,考虑特征向量中各维特征对模式分类的不同贡献,研究了特征加权的聚类算法。提出的基于阴影集的特征加权聚类方法解决了交叠簇的有效划分问题,同时增强了异常点存在时算法的鲁棒性。(3)提出了一种基于阴影集和粗糙集的特征加权模糊聚类算法。应用特征加权分析数据的各维特征对模式分类的不同贡献,算法将阴影集、粗糙集和模糊聚类相结合,在粒计算框架下融合多种理论方法,对交叠的簇划分更有效,同时在噪声和异常数据存在时算法的鲁棒性更强。(4)提出了新颖的具有分类属性数据的模糊聚类算法。针对混合型数据,基于数据服从概率形式分布的簇假设,为了有效发现噪声和异常数据点,提出基于阴影集和粗糙集的概率不相似函数混合型数据模糊聚类改进算法。针对分类数据,通过增加簇间信息修改模糊k-modes算法的目标函数,达到同时最小化簇内离差和增强簇间分离。另外,为了减少硬质心产生的误分类,提出了具有簇间信息的分类数据模糊质心聚类改进算法。(5)探讨了不同场景中基于阴影集和粗糙集的模糊聚类算法应用。首先基于阴影粗糙模糊聚类结合支持向量机的算法建立民航机场噪声时间序列预测模型;其次针对当前的网络入侵检测研究热点,对KDD CUP1999数据集抽样分析,提出了两步走的基于阴影集和粗糙集的模糊聚类入侵检测算法;再者鉴于局部离群点检测的重要现实意义,提出了新颖的基于阴影集和粗糙集的特征加权模糊聚类局部离群点检测方法。