论文部分内容阅读
时间序列是由多个特定时间点上数据组合而成的高维向量,对于时间序列的分类决策是管理科学的重要分支之一。在传统意义上,决策的精度取决于决策者的个人经验,并受到外界因素和主观因素的影响。例如,只有学习过相关医学知识并积累了一定经验的医生才能看出患者心电图中隐藏的疾病。因此,如何客观准确地定量分析对时间序列的分类决策有着重要意义。矢量量化是将若干标量数据组合在一起,并在矢量空间中整体量化的一种基于分组编码的有损压缩算法。本文主要在分段矢量量化算法基础上对其相似性度量和分类标准等问题进行了研究。通过引入马氏距离、多码本及视觉重点等,对分段矢量量化算法进行改进,本文的主要工作包括如下三个方面:提出了基于马氏距离的分段矢量量化算法。标准分段矢量量化方法在产生码本时采用了欧氏距离,容易受特征量纲的影响。因而本文引入马氏距离,提出了基于马氏距离的分段矢量量化算法。所提方法采用马氏距离对未知样例及训练样本进行重构,并以马氏距离作为相似性度量计算重构误差来确定未知样例的类别。在基准数据集上的实验结果证实了该方法能够提高原算法的精确度。提出了多码本分段矢量量化算法。标准分段矢量量化算法只产生一个码本,忽略了类别信息对时间序列重构分类的影响。为此,本文通过对每一类数据均产生一个码本来实现多码本分类,提出了多码本分段矢量量化算法。实验证明,相比于分段矢量量化算法,所提算法提高了时间序列的分类精度。提出了基于特征点的多码本分段矢量量化算法。传统分段矢量量化算法的线性分段,可能会使得特征缺失从而影响最终分类。为此,本文通过计算特征点信息进行分段,最大程度上保留了时间序列的特征段,提出了基于特征点的多码本分段矢量量化算法。仿真实验中,设定总的码本大小一致,结果表明了所提方法的优越性。