论文部分内容阅读
随着现代技术的进步,函数型数据的收集变得更加容易。函数型数据聚类分析在函数型数据的研究领域中占有重要地位,函数型数据分析相较于传统数据分析优势之一在于可以发掘观测对象的动态变化特征。现有的函数型聚类算法,大多集中于对一元函数型数据进行研究,并且,目前多元函数型数据聚类算法普遍存在丢失不同样本在同一函数型变量上的差异的问题。为了弥补现有多元函数型数据聚类算法的缺点,本学位论文提出了基于函数型二维主成分得分相似性度量的K-Means聚类算法和基于模型的加权多元函数型聚类算法,并采用两种算法对浙江省空气污染变化特征进行实证研究。本文主要内容和创新点如下:(1)提出基于函数型二维主成分得分相似性度量的K-Means算法多元函数型数据主成分分析对数据进行投影时,会丢失不同样本在同一函数型变量上的差异信息,这种差异在后续的聚类分析中带来影响。本文借鉴了图像处理领域的二维主成分分析特征提取的思想,改进多元函数型主成分分析方法,提出函数型二维主成分分析方法。同时,本文定义了一个新的距离度量并对新的距离度量进行数值模拟,相较于基于多元函数型主成分得分的相似性度量,在新的聚类度量下K-Means聚类算法表现的更好。(2)提出基于模型的加权多元函数型数据聚类算法基于模型的多元函数型数据聚类算法,依赖于多元函数型主成分得分构造高斯混合模型来近似多元函数型数据的概率密度函数。在不改变多元函数型主成分得分定义的前提下,为了减少投影过程中不同样本在同一函数型变量上丢失的差异信息,改进基于模型的多元函数型数据聚类算法,将函数型熵值法与其结合,提出基于模型的加权多元函数型数据聚类算法。该算法不仅没有破坏多元函数型主成分得分的线性求和结构,而且在投影过程中减少不同样本在同一函数型变量上差异信息损失。在数值模型中,相较于基于模型的多元函数型数据聚类算法,基于模型的加权多元函数型聚类算法表现出更好的聚类性能。(3)加拿大气温数据集和浙江省空气污染变化特征的实证研究本文采用基于多元函数型主成分得分的K-Means聚类算法、基于函数型二维主成分得分相似性度量的K-Means聚类算法、基于模型的多元函数型数据聚类算法以及基于模型的加权多元函数型数据聚类算法对加拿大气温数据集进行聚类分析,验证了本文提出的基于函数型二维主成分得分相似性度量的K-Means聚类算法和基于模型的加权多元函数型数据聚类算法在真实数据集上良好的聚类效能。同时,采用基于函数型二维主成分得分相似性度量的K-Means聚类算法和基于模型的加权多元函数型数据聚类算法对浙江省2014年至2019年空气污染变化特征进行探究,将浙江省空气污染变化特征在空间上划分为3类区域,呈现出由南至北逐渐严重的趋势。