论文部分内容阅读
随着数据的增长和数据处理系统的不断改进,我们对开发强大而有效的数据处理和数据挖掘算法提出了更多要求,聚类算法作为数据挖掘的基本工具被广泛应用.在实际的聚类问题中,常常会因为特征集的提取不当以及异常值的干扰而对聚类结果产生较大影响.其中特征集提取面临着以下两大问题:首先,从样本中提取出的特征为聚类提供了较少的信息,即特征的虚弱性;其次,特征向量通常具有高维多源的性质,导致特征空间中的簇有着复杂的结构.异常值的干扰是令很多已提出的聚类算法头痛的问题,有限的异常值可能造成数据点划分的不精确或者完全错误.本文分别基于精确数据和不精确数据对聚类面临的这两大问题进行研究.首先,针对精确数据集,本文提出了多任务可能模糊共聚类算法(MPFC).该算法首先考虑到特征空间的结构差异,通过衡量不同特征源对各个簇类的贡献度对特征源进行合理分配.随后算法利用任务之间的信息共享,从不同方面挖掘数据特征所携带的信息,提高有效信息的利用率.最后,为了降低异常值对聚类结果的干扰,增加算法的鲁棒性,该算法利用了典型度的性质来识别异常值,并在聚类过程中弱化其影响力.同时,为了避免簇心受典型度的影响而导致重合,本文提出了新的参数选择指标,该指标利用了典型度的性质对参数进行校正,并通过校正后的参数牵制质心的移动.为了检验MPFC算法的性能,本文借助了多个数据集和相应的聚类算法进行实验.结果显示,MPFC算法不仅提高了聚类精度,而且大大降低了异常值对聚类结果的干扰.其次,在许多实际问题中,测量结果往往是不精确的实数或向量,这样的数据人们称为不精确数据.不精确数据存在极为广泛,常见的有气体含量的勘测等.当前的聚类算法大多用于处理精确数据集,为了提高聚类算法处理非精确数据的基准,本文将改进的MFC算法和新提出的MPFC算法拓广于非精确数据集上.由于非精确性通常是基于模糊集来处理的,故在对非精确数据进行处理时,本文使用LR型模糊集来进行聚类,并给出相应的距离度量方法.为了提高MFC算法的聚类精度,改进的MFC算法对隶属度随机初始化,且为了避免因初始化隶属度而导致簇心相近,该算法在构建新的参数选择指标时,在簇心之间添加了一个斥力,用于牵制簇心的移动.实验表明,MFC-F算法和MPFC-F算法与其他处理模糊数据的优秀算法相比,聚类效果更佳.最后,对研究内容和成果进行总结,为后续研究高性能的聚类算法奠定了基础.