论文部分内容阅读
近年来,随着互联网技术、大数据技术的迅速发展,数据呈现出爆发式的增长。对数据进行预处理提升数据质量是确保数据挖掘方法有效性的重要一步。数据预处理通常是指处理包含噪声数据和冗余数据的输入数据。传统的方法基于单一数据源进行处理或者难以处理含较高噪声的数据。本文首先介绍了时间序列的基本概念及基本分析方法,结合具体的研究内容,总结并分析了多源时间序列的研究方法及研究现状。之后,主要针对多源时间序列的数据预处理算法进行研究,研究的问题从简单到复杂,提出的算法也从浅到深。研究了含辅助数据源低维多源时间序列预处理及数据融合问题;不含辅助数据源信息的高缺失噪声低维多源时间序列缺失数据预处理问题;高维含多种噪声的多源时间序列预处理问题;同时研究在隐藏空间中直接建立含噪声多源时间序列的回归模型,为系统未来状态预测作预处理。取得的主要成果如下:提出了含辅助数据源的低维多源时间序列预处理框架。在此数据预处理框架中,提出了基于优化线性回归(OLR)、优化支持向量机(OSVM)和精炼支持向量机(RSVM)的缺失数据预测模型,结合辅助数据源策略,提升原始数据的数据质量。此外,本文引入了一种基于皮尔逊关联分析的方法融合辅助数据源的数据,提取了与目标数据源有强关联关系的辅助信息,本文进一步设计了一种基于主成分分析法(PCA)的数据清洗方法,通过对融合后的数据进行预处理,减少了原始训练集的数据维度和噪声,从而提升了故障诊断的准确性,而且可进一步减少模型的训练时间。大规模多源时间在并行环境下的实现验证了所提出方法的有效性及更高的执行效率。提出了基于正则化矩阵分解的高缺失噪声低维多源时间序列预处理算法。为提升模型的鲁棒性,从整体上提取原始多源时间序列信息,本文将时间序列矩阵映射至隐藏空间,并设计适用于时间序列的正则化约束项以提高缺失数据预测准确率。对此,本文提出了可较为精确提取矩阵分解过程中隐藏空间的隐藏因子的方法,通过约束矩阵分解以预测多源时间序列缺失数据。该方法利用每条时间序列的平滑性及传感器网络的跨源信息约束矩阵分解目标方程。相应地引入了平滑性约束、相关传感器约束、不相关传感器约束,并建立了五个相应的模型。较好的实验结果验证了引入约束之后矩阵分解过程中的隐藏因子提取的有效性。此外,并行环境下的实现不仅验证了所提出方法的有效性,更证明了在处理规模较大数据时的高效性。针对时间序列的动态特性,建立动态的矩阵分解模型,以适应当有新样本进入系统时的快速更新。此动态模型可确保在新样本数据到来后更新模型时误差控制在合理范围内,精炼策略可确保动态模型在长时间更新后仍保持很好的鲁棒性。对于大规模数据的处理,本文同样在并行计算环境下实现了动态矩阵分解模型。提出了基于特征选择及张量分解的高维含多种噪声时间序列预处理算法。为从高维含多种噪声时间序列中提取紧凑的精确的表示信息进行降噪,以获得更优的高维含多种噪声时间序列分类准确度,本文提出了一个有监督时序张量分解核框架STT(Supervised Temporal Tensor kernel framework)。STT克服了传统方法的一些缺陷,例如传统的方法要求给定训练数据的相对高的完整性,要求原始时间序列的多个数据源间无时延,以及对高信噪比的需求。STT由三步组成:(1)用于特征选择及提高模型泛化能力的鲁棒性池化;(2)有监督时序因子分解,用于提取所选特征的更紧凑的信息表示;(3)用于核生成的张量结构投影。实验结果验证了即使当多源时间序列中的噪声较高时,所提出的方法也可以取得较为优良的性能。提出了面向系统未来状态评价的含噪声多源时间序列预处理框架。为了对系统未来状态预测作预处理,通过预处理含辅助数据源的多源时间序列,本文提出了不完整时间序列预测框架ISM(Incomplete time series prediction based on Selective tensor modeling and Multi-kernel learning)。ISM由三部分组成:张量构建;隐藏因子提取;张量结构映射及多核学习。针对含辅助数据源的多源时间序列,设计了较优的张量构建方法;之后,将构建的张量进行因子分解,即将含噪声数据映射至隐藏空间从而达到降噪的目的;最后,基于张量结构映射并利用多核学习天然对应的多数据源特性,进行时间序列未来数据预测,为系统未来状态评价作准备。实验结果表明,ISM框架展现出比传统方法更优的性能。