论文部分内容阅读
伴随大数据时代的到来,信息爆炸产生了海量数据,云计算、物联网以及移动互联网渗透到人们日常生活的各个领域,互联网金融、电子商务、信息科技等先进科技领域无时无刻不在产生数据,每天会产生万亿至千万亿字节的海量数据。数据结构越来越复杂,数据形式越来越多样,深度挖掘海量数据中隐含的信息成为大数据时代经济管理发展的迫切需求。聚类是数据挖掘的重要方法,可以作为发现数据集分布的独立工具,也可以用于对数据进行深入分析和其他算法的数据预处理过程。但几乎所有知名的聚类算法都需要手动输入关键参数,参数的选择完全依赖研究人员的先验知识,且这类参数对于聚类结果的影响是非常显著的。面对数据量大、结构复杂的数据集,人们根本无法做到完全准确地设定全局参数。在统计学中,人们最常用的是SPSS统计分析软件中的二阶段聚类、快速聚类和层次聚类三种方法,并利用这三种聚类方法解决所有数据类型的聚类分析问题。面对多维、海量的复杂数据,这种计算方式只能得到粗略的计算结果,但对于管理者来说,准确的数据分析结果是正确决策的根本保证。对于不同的学习策略,需要使用不同的聚类方法。目前没有一种聚类方法能够准确地对所有类型数据进行分析。本文通过多种改进和创新密度峰值聚类方法,进一步丰富聚类理论,提供更多有效的聚类方法,满足研究人员分析复杂多维数据时的需要。密度峰值聚类方法是2014年在《Science》上提出的最新方法,具有聚类速度快、实现简单、可扩展性强等优点,适用于大数据环境下的数据分析。因此本文以密度峰值聚类方法为出发点,根据密度峰值聚类方法中截断距离参数dc需要人为设定的不足,利用不同策略的群智能优化算法计算该参数,解决了密度峰值聚类方法中的参数估计问题。本文的核心思想就是利用目前群智能算法中最新提出的果蝇优化算法和布谷鸟优化算法的特点,以密度峰值聚类算法的参数确定为主要研究对象,对果蝇优化算法和布谷鸟优化算法进行改进,提高原算法的科学性和鲁棒性,并利用改进的三种智能优化算法分别确定密度峰值聚类中的截断距离参数,提出三种改进的密度峰值聚类方法。本文的主要内容和创新如下:(1)提出基于知识学习的改进果蝇优化算法,并将该算法应用于优化密度峰值聚类算法中的截断距离,进一步提出基于改进果蝇优化的密度峰值聚类方法。果蝇优化算法具有实现简单、参数少、效率高、应用能力强等特点,但该算法的完全随机策略虽然简单,搜索过程有较大盲目性,易陷入局部极值。针对此问题,本文引入知识学习策略,提高算法全局搜索能力和收敛速度。当果蝇优化算法陷入局部极值时,果蝇通过学习种群知识获得不同变异尺度。通过模拟仿真实验,利用多个测试函数验证了改进后的果蝇优化算法寻优能力更强。该算法优化密度峰值聚类算法的参数时,针对某些数据集比元算法表现出更强的聚类能力。(2)提出基于动态发现概率的改进布谷鸟优化算法,并将该算法应用于优化密度峰值聚类算法中的截断距离,进一步提出基于改进布谷鸟优化的密度峰值聚类方法。布谷鸟优化算法具有参数少、鲁棒性好、全局搜索能力强等优势,但也存在算法寻优速度慢等缺陷。本文改进布谷鸟算法中的发现概率,使其与当前函数值变化关联起来,动态更新鸟巢位置,通过这样的改进完善原算法的完全随机特性。改进后的布谷鸟优化算法可以根据当前最优、最差鸟巢位置距离,有方向地控制发现概率的大小,使改进后的算法具有更快的寻优速度和更准确的收敛精度。通过模拟仿真实验,利用测试函数验证了改进后的布谷鸟优化算法寻优能力更强。该算法优化密度峰值聚类算法的参数时,针对某些数据集也表现出比比原聚类方法更强的聚类能力。(3)提出智能选择优化算法。果蝇优化算法具有较强的局部搜索能力,同时布谷鸟优化算法的全局搜索能力更强。结合两者的优点,引入协同重组算子和基于混沌理论的变异因子。首先将初始化种群等分成双种群,并分别利用提出的改进果蝇优化算法和改进布谷鸟优化算法实行双种群协同进化策略,在每次完成迭代时利用协同重组算子让两个种群引进对方的全局最优解,实现种群间的实时信息交流,且对两种算法得到的最优解通过轮盘赌方式选取最优位置,并作为下一次迭代过程中布谷鸟种群的鸟巢位置和果蝇种群的全局最优食物源,达到协同进化,使算法具有局部串行挖掘和全局并行勘探的能力,全面提高算法的寻优精度、收敛速度和全局寻优性能。进而提出基于智能选择优化理论的密度峰值算法,且比原聚类方法具有更好的寻优精度和较强的聚类能力。