论文部分内容阅读
海洋Argo浮标监测数据具有不确定、轨迹分布、大批量以及由于Argo浮标“随波逐流”等特点,导致浮标观测剖面在时间和位置上的不确定性,Argo浮标受海水漂流和恶劣气象的影响,会造成错误的传感数据,对科学、合理及标准化处理监测资料及数据分析造成困难。针对此类问题本文对海洋Argo浮标监测数据在聚类分析和异常检测方面进行了研究,研究工作主要如下: (1)针对温盐度海洋Argo浮标监测数据异常问题,改进了Kmeans算法的海洋数据异常检测方法,通过一种改进Kmeans 算法DMKmeans(Density Mathematics Kmeans),选取给定邻域范围内最近邻数据点最多的点为初始中心点,迭代聚类,直到准则函数收敛,聚类结束。基于DMKmeans算法对数据集聚类后,再使用数学模型为准则进行海洋监测数据异常检测。 (2)针对变化更为复杂的海洋Argo浮标监测数据异常问题,提出了基于MeanShift核函数平移模型DBSCAN算法改进的CURE算法。通过Meanshift核函数平移模型自适应得到参数Eps和MinPts,然后由DBSCAN算法聚类得出异常值集和若干初始聚类正常值集,再对全部正常值集进行改进CURE算法的层次聚类,精确聚类结果,最终得出正常值聚类结果集。自适应参数的密度聚类,避免了人工设置参数,提高聚类准确率,通过引入质心公式改进CURE算法,代替收缩因子,进一步精确划分聚类结果,降低时间复杂度,提高算法全局收敛性和可靠性。 通过海洋监测数据异常检测仿真实验,将DMKmeans算法与传统Kmeans算法及MinMaxKmeans算法对比分析,结果表明新提出算法改进了Kmeans算法随机指定初始点聚类而造成局部聚类最优的不足,能有效提高对二维Argo浮标数据的聚类准确率和异常检测率。在对温盐度、随经纬度以及压强变化的温盐度或溶解氧的Argo浮标数据集聚类分析及异常检测方面,DCNDA算法在时间复杂度、聚类准确率、异常值检测效率方面优于改进分区CURE算法和PDBSCAN算法。