论文部分内容阅读
生活中充斥着大量与时间、空间位置相关的事件,它们可以归结为同一类问题,即时间序列。这一类问题深刻影响着社会的进步、人类的健康、自然环境的变化,提前预知将来时刻或未知位置的状态,即预测,可以让我们避免不必要损失,提高我们的生活水平等。目前,对时间序列的预测主要可以分为回归和分类两大问题。对于输出可能的结果有无数多个时,我们称为回归问题。对于输出可能的结果有限个时,我们成为分类问题。现实生活中,回归问题的数目异常庞大,研究这类问题意义非凡。回归问题主要可以分为两类,即线性的和非线性的。线性的问题可以考虑线性回归(LR),考虑输出与时间或空间位置的关系。有时简单的线性回归处理不了线性时间序列,在平稳序列中,这时可以考虑自回归(AR),用过去的输出作为输入来预测当前的输出,也可以考虑过去的噪音生成当前输出(MA),也可以是两者的组合(ARMA)以及它们的变种。对非线性的时间序列,处理方法主要分为两类,即核方法(kernel method)和多层感知机。核方法将输入空间映射到特征空间,使之线性可分,如核SVM,高斯过程回归(GPR)等。多层感知机随着计算能力的提升,逐渐发展为深度学习(DL),广泛应用于图像、语音、文本处理等。但是深度学习极度依赖于数据,需要大量的数据才能训练出性能良好的模型,当数据较少时,深度学习的算法就可能欠拟合,误差很大,这时高斯过程回归的优势就会凸显出来。高斯过程回归不同于深度学习等参数模型,它考虑的是函数的分布,但它不仅仅可以模拟函数,还可以解决噪音问题,探索不确定的问题。对于数据量比较小时,效果较好。本文将探索高斯过程回归在非线性时间序列问题的应用。并以北京市pm2.5为例分析实验,并和深度学习模型长短期循环神经网络(LSTM)做对照实验,先后分析了pm2.5、大气压强和风速等一元序列,比较了两种模型的优劣,发现基于自回归的高斯过程回归(AR-GPR)效果显著,对处理小数据的非平稳时间序列具有潜在的应用价值。