论文部分内容阅读
时间序列是由一组随时间变化的观测数据组成。与传统的静态数据不同的是,时间序列是一类复杂的数据对象,它描述的是事物变化的过程。时间序列分割是时间序列分析研究的重要任务之一。它是将长序列分割成不重叠的、有序的子序列集合的过程。在时间序列分析中有很多问题的求解过程都需要用到时间序列分割算法,具有广泛的应用空间和重要的研究价值。隐马尔可夫模型(HMM)是一种重要的时间序列模型。基于HMM的时间序列分割方法多数没有考虑到在实际工作中,需要满足一定的领域背景要求,所以多数不能符合用户的预期。本文针对时间序列分割时要求分割点状态需要持续一定的时间的应用背景,研究了一种结合状态最短连续长度约束HMM。描述了状态转移矩阵的扩展和约束,给出了约束HMM的训练算法。同时,相应地修改Viterbi算法,以给出满足持续时间约束的隐状态序列。在仿真数据实验中,基于约束HMM的方法相对基于标准HMM的方法分割效果更好。将本文提出的基于约束HMM的分割方法应用在汉密尔顿Hamilton的国民生产总值(GNP)的数据以及韶关市1951-2013年降水量时间序列数据,应用分割结果相对于一般HMM更符合实际意义。本文还将约束HMM应用于一致聚类算法的类数估计过程。将约束HMM加入到一般的基于K-Means的一致性聚类法框架来估计聚类数目。该方法分析的序列是通过分别统计原始一致矩阵中各个可能出现的元素值出现的次数得到的。这个序列可以看作是由3-状态的马尔科夫链生成的观测序列,三个状态对应样本对的三种关系,分别是:高度倾向不同类,倾向不明确,高度倾向相同类。在四个UCI数据集的实验结果表明这种方法比一些最新的估计聚类数目的方法来的更有效。